【论文阅读】Next point-of-interest recommendation with auto-correlation enhanced multi-modal transformer network

Metadata

authors:: Yanjun Qin, Yuchen Fang, Haiyong Luo, Fang Zhao, Chenxing Wang
container:: Proceedings of the 45th international ACM SIGIR conference on research and development in information retrieval
year:: 2021
DOI:: 10.1145/3477495.3531905
rating:: ⭐⭐⭐⭐
share:: false
comment:: 框架为 Transformer，计算序列自相关性，并考虑访问子序列，同时预测 POI 及其类别

前言

2022，SIGIR： Next point-of-interest recommendation with auto-correlation enhanced multi-modal transformer network

问题描述

分别给定用户集合 $U = \{ u_1, u_2, \cdots, u_{\vert U \vert} \}$ 以及 POI 集合 $L = \{ l_1, l_2, \cdots, l_{\vert L \vert} \}$ ，其中每个位置 $l_i$ 都有一个对应的 $(lat, lon)$ 坐标相关联。

（check-in）一个 check-in 可以表示为 $c=(u,l_t,\tau_t)$ ，即用户 $u$ 在 $\tau_t$ 时刻访问地点 $l_t$ 。

（user trajectory）用户轨迹是由特定用户的一系列时间顺序的签到记录来定义的，即 $L_u = \{ (u, l_t, \tau_t) \vert t = 1,2,\cdots,N \}$ 。类似地，有类别序列 $C_u = \{ (u, c_t, \tau_t) \vert t = 1,2,\cdots,N \}$ 。

（next POI recommendation）给定每个用户 $u$ 的的活动轨迹 $L_u, C_u$ ，预测用户 $u$ 最可能去的 POI top- $k$ 。

OverView

之前工作中存在的问题：

以往基于 RNN 的方法仅限于短期的连续访问，也就是说，它们几乎没有对时间线上远处的访问之间的隐性联系进行建模。
相似子序列在以前的方法中没有被重视。如图所示，绿圈和红圈中出现了相似的访问子序列。
POI 的类别和位置之间的交互是很重要的，因为下一个位置会受到类别的影响，如上图中用户购物后去了同一个酒吧。然而，现有的绝大多数算法都无法捕捉到 POI 和类别之间的跨模式知识。

论文提出了 auto-correlation enhanced multi-modal Transformer network (AutoMTN) 模型。论文使用 Transformer 来捕获 POI 层面的序列连续关系，同时，为了预测下一个 POI 的类别，论文使用了一个双通道的 Transformer 来同时预测 POI 及其类别。

此外，通过对 Transformer 中的 self-attention 进行修改，以捕获子序列之间的依赖关系。

最后，模型的核心是方向性的跨模式自动相关，它关注不同时间步骤的 POI 和类别序列之间的相互作用，并潜移默化地将子序列的信息从一种模式调整到另一种模式。

AutoMTN

模型架构如下图所示：

Embedding Layer

嵌入层将用户、类别、位置和时间信息进行编码，分别为 $e^u\in\mathbb{R}^d, e^l\in\mathbb{R}^d, e^c\in\mathbb{R}^d, e^\tau\in\mathbb{R}^d$ 。其中时间信息维度为 24，即将一天分为 24 个时间戳。POI 和类别的 embedding 为：

$\begin{aligned} e^P = e^u + e^l + e^\tau \in\mathbb{R}^d \\ e^C = e^u + e^c + e^\tau \in\mathbb{R}^d \end{aligned}$

最后得到：

$\begin{aligned} E(L_u) = \{ e_1^P, e_2^P, \cdots, e_N^P \} \in\mathbb{R}^{N\times d} \\ E(C_u) = \{ e_1^C, e_2^C, \cdots, e_N^C \} \in\mathbb{R}^{N\times d} \end{aligned}$

Auto-Correlation Layer

以往的工作主要是基于递归结构的，这总是忽略了非连续访问你的信息。尽管 self-attention 可以捕获点对点的相互作用，但它并不能提取子序列层面的相关信息。因此，论文通过 auto-correlation 来发现子序列之间的依赖关系，聚合类似的子序列。

Dependencies of Sub-sequences

自相关可以反映一个 POI 序列与其 $\epsilon$ 滞后序列之间的时间延迟模式。序列 $\mathcal{X}$ 的延迟为 $\epsilon$ 的自相关 $\mathcal{R}_{\mathcal{XX}}(\epsilon)$ 为：

$\mathcal{R}_{\mathcal{XX}}(\epsilon) = \underset{N\rightarrow\infty}{lim} \frac{1}{N} \sum_{t=1}^{N} \mathcal{X}_t\mathcal{X}_{t-\epsilon}$

Time Delay Aggregation

论文计算所有滞后长度的自相关性，从中选择自相关性最高的 $k$ 个滞后长度，然后将这些选定的子序列对齐。聚合过程如下：

$\begin{aligned} \epsilon_1, \cdots, \epsilon_k &= \underset{\epsilon\in\{1,\cdots,N\}}{argTopk}(\mathcal{R_{Q,K}}(\epsilon)) \\ \tilde{\mathcal{R}}_{\mathcal{Q,K}}(\epsilon_1), \cdots, \tilde{\mathcal{R}}_{\mathcal{Q,K}}(\epsilon_k) &= SM(\mathcal{R_{Q,K}}(\epsilon_1), \cdots, \mathcal{R_{Q,K}}(\epsilon_k)) \\ AC(\mathcal{Q,K,V}) &= \sum_{i=1}^{k} Roll(\mathcal{V, \epsilon_i})\tilde{\mathcal{R}}_{\mathcal{Q,K}}(\epsilon_i) \end{aligned}$

其中 $AC(\cdot), SM(\cdot)$ 分别表示 auto-correlation 和 softmax；论文中的 $k$ 为 $\log N$ ； $Roll(\mathcal{X},\epsilon)$ 将序列 $\mathcal{X}$ 与其 $\epsilon$ 延时序列对齐。

对于 POI 和类别序列的嵌入，其自相关机制可以表述为：

$\begin{aligned} A^P &= AC(E(L_u)W^{Q^{P_1}}, E(L_u)W^{K^{P_1}}, E(L_u)W^{V^{P_1}}) \\ A^C &= AC(E(C_u)W^{Q^{C_1}}, E(C_u)W^{K^{C_1}}, E(C_u)W^{V^{C_1}}) \end{aligned}$

其中 $W^{Q^{P_1}}, W^{K^{P_1}}, W^{V^{P_1}}, W^{Q^{C_1}}, W^{K^{C_1}}, W^{V^{C_1}} \in \mathbb{R}^{d\times d}$ 为可学习矩阵， $A^P, A^C\in\mathbb{R}^{N\times d}$ 分别为 POI 和类别的输出。

Cross-Model Auto-Correlation Layer

与以往的并行计算 POI 以及类别的方法不同的是，论文采用了跨模态自相关方法，使得一种模式能够从另一种模式中获取信息，即 POI 和类别能够从对方那里获得辅助信息。具体来说，将 POI 序列作为 query，类别作为 key 和 value，类别也是类似的：

$\begin{aligned} M^P &= AC(A^PW^{Q^{P_2}}, A^CW^{K^{C_2}}, A^CW^{V^{C_2}}) \\ M^C &= AC(A^CW^{Q^{C_2}}, A^PW^{K^{P_2}}, A^PW^{V^{P_2}}) \end{aligned}$

其中 $W^{Q^{P_2}}, W^{K^{P_2}}, W^{V^{P_2}}, W^{Q^{C_2}}, W^{K^{C_2}}, W^{V^{C_2}} \in \mathbb{R}^{d\times d}$ 为可学习矩阵， $M^P, M^C\in\mathbb{R}^{N\times d}$ 分别为 POI 和类别的输出。

Attention Predictor

论文基于 $M^P, M^C\in\mathbb{R}^{N\times d}$ 的学习表示来计算候选 POI 和类别的概率。

给定 POI 候选集合 $E(L) = \{ e_1^l, \cdots, e_{\vert L \vert}^l \} \in\mathbb{R}^{\vert L\vert\times d}$ ，类别候选集合 $E(C) = \{ e_1^c, \cdots, e_{\vert C \vert}^c \} \in\mathbb{R}^{\vert C\vert\times d}$ 以及 POI 距离矩阵 $D^{N\times\vert L\vert}$ ，计算如下：