【论文阅读】Empowering next POI recommendation with multi-relational modeling

Metadata

authors:: Zheng Huang, Jing Ma, Yushun Dong, Natasha Zhang Foutz, Jundong Li
container:: Proceedings of the 45th international ACM SIGIR conference on research and development in information retrieval
year:: 2021
DOI:: 10.1145/3477495.3531801
rating:: ⭐⭐
share:: false
comment:: 强调用户之间的社交关系建模，使用耦合的 RNN 相互更新用户和 POI 表示

前言

2022 年 SIGIR， Empowering next POI recommendation with multi-relational modeling

问题描述

分别给定用户集合 $\mathcal{U} = \{ u_1, u_2, \cdots, u_U \}$ 以及 POI 集合 $\mathcal{L} = \{ l_1, l_2, \cdots, l_L \}$ ，其中每个位置 $l_i$ 都有一个对应的 $(lat, lon)$ 坐标相关联。

（check-in）一个 check-in 可以表示为 $c_k(u_i)=(l_k,t_k)$ ，即用户 $u_i$ 在 $t_k$ 时刻访问地点 $l_k$ 。

（user trajectory）用户轨迹是由特定用户的一系列时间顺序的签到记录来定义的，即 $C(u_i) = \{ c_1(u_i), c_2(u_i), \cdots, c_K(u_i) \}$ 。

（user-user social relations）给定用户之间的 $P$ 个关系 $\mathcal{R}=\{r_1, r_2, \cdots, r_P\}$ 。使用三元组表示用户之间的社交关系 $(u_i, u_j, r_p), u_i, u_j \in \mathcal{U}, r_p \in\mathcal{R}$ 。为了简单，假设用户之间的关系是对称的。值得注意的是，用户之间可能有多种关系。

（next POI recommendation）给定每个用户 $u_i$ 从 1 到 $t$ 时刻的活动轨迹 $C(u_i)$ ，预测用户 $u_i$ 在下一时刻 $t+1$ 最可能去的 POI top- $k$ 。

OverView

论文认为在 POI 推荐任务中仍然存在以下的挑战：

用户的偏好是复杂的，通常不同的社会关系有很强的联系。如下图所示，用户 Jack 从家庭成员那里寻求关于购物中心的建议，而从同事那里寻求关于培训机构的建议。这些异构的社会关系，加上用户访问 POI 所形成的用户-POI 关系，给有效利用嵌入的丰富信息带来了巨大的挑战。

获取用户和 POI 之间关键的、跨时的、相互的影响仍然具有挑战性。在用户-POI 关系中，用户的偏好可能会随时间发生变化。仍以上图为例，假如 Anna 在她最近访问的商场留下了一个正面的评价，或者推荐给其他人，那么，这个 POI 的声誉和受欢迎程度可能会得到提高。反过来，这个 POI 的声誉将影响安娜未来的访问。

为了解决上面这些问题，论文提出了 Multi-Relational Modeling (MEMO)，充分利用用户之间的社交关系以及用户与 POI 之间的关系，使用 Graph Convolutional Networks (GCN) 以及 self-attention 进行特征提取。

为了捕获用户和 POI 之间随时间变化的相互影响，论文设计了一个基于耦合的递归神经网络（RNNs）的用户-POI 相互影响建模组件，该网络可以相互更新对方的表示。

MEMO

模型架构如下图所示：

Relation Modeling

为了对用户之间不同的 $P$ 种关系进行建模，论文建立了 $P$ 个网络 $\mathcal{G}_1, \cdots, \mathcal{G}_P$ ，每一个网络都有一个对应的邻接矩阵 $\mathbf{A}_1, \mathbf{A}_P$ ，其中 $\mathbf{A}_p\in\mathbb{R}^{U\times U}$ ，若用户 $u_i$ 和 $u_j$ 之间的关系为 $p$ ，则 $\mathbf{A}_p[i,j]=\mathbf{A}_p[j,i]=1$ 。

类似地，用户-POI 关系矩阵 $\mathcal{G}_C$ 有一个对应的邻接矩阵 $\mathbf{A}_C\in\mathbb{R}^{(U+L)\times(U+L)}$ 获取用户与 POI 之间的访问关系。总共有 $P+1$ 种关系，包括 $P$ 种用户-用户社会关系和 1 种用户-POI 关系。

Relation-Specific Representation Learning

为了适应不同类型的关系，论文利用特定关系的表示学习模块，将节点映射到与每个关系分别对应的潜在表示空间中。

首先，对于每个节点 $v_i$ ，随机初始化其嵌入 $\mathbf{x}_i$ 。利用特定关系的转移函数 $\Phi(\cdot)$ 将 $\mathbf{x}_i$ 映射新的 embedding $\mathbf{x}_i^p$ 表示第 $p$ 个关系：

$\mathbf{x}_i^p = \Phi(\mathbf{x}_i)$

在 $\mathbf{x}_i^p$ 基础上，论文通过使用 GCN 聚合每个网络 $\mathcal{G}_p$ 上的邻居的嵌入来学习每个节点 $v_i$ 的特定表示 $\mathbf{h}_i^p$ 。

感觉论文说得不明不白的，连什么公式都没有。

Aggregation over Different Relation Types

接着，论文利用 self-attention 将每个节点的所有特定关系表示汇总到一个共同的隐藏层空间，以有效捕获每个用户在不同类型关系中的偏好。

具体来说，其实也就是利用 self-attention 计算两个关系之间的相似性：

$\mathbf{k}_i^p = \mathbf{W}_p^K\mathbf{h}_i^p \quad \mathbf{q}_i^p = \mathbf{W}_p^Q\mathbf{h}_i^p \quad \mathbf{m}_i^p = \mathbf{W}_p^M\mathbf{h}_i^p$

$\alpha(p_1, p_2) = \text{Softmax}_{\forall p_2\in[P+1]} (\mathbf{k}_i^{p_2} \mathbf{q}_i^{p_1} / \sqrt{d})$

并将所有关系聚合到关系 $p$ ：

$\tilde{\mathbf{h}}_i^p = \oplus_{p'\in[P+1]} \{ \alpha(p, p') \cdot \mathbf{m}_i^{p'} \}$

其中 $\mathbf{W}_p^K,\mathbf{W}_p^Q,\mathbf{W}_p^M$ 为可学习权重矩阵。

之后使用多层感知机聚合不同关系类型的表示：

$\mathbf{h}_i = MLP([\tilde{\mathbf{h}}_i^1 \Vert \tilde{\mathbf{h}}_i^2 \Vert \cdots \Vert \tilde{\mathbf{h}}_i^{P+1}])$

User-POI Mutual Influence Modeling

在用户-POI 关系中，用户的潜在状态和 POI 的潜在状态可能会随着时间的推移而相互影响。因此，需要更新用户和 POI 的表示，以捕获这样的相互关系。具体来说，论文通过用户 RNN（RNN $_U$ ）和位置 RNN（RNN $_L$ ）组成的耦合 RNN，分别学习用户和 POIs 的表示。

RNN $_U$ 整合了 POI 表示来更新用户表示，反之亦然。具体来说：

$\mathbf{h}_u^{t+1} = \sigma(\mathbf{W}_1^U\mathbf{h}_u^t + \mathbf{W}_2^U\mathbf{h}_l^t + \mathbf{W}_3^U\mathbf{z}^{\Delta t} + \mathbf{W}_4^U\mathbf{z}^{\Delta d})$

其中 $\mathbf{W}_1^U, \cdots, \mathbf{W}_4^U$ 为可学习矩阵， $\mathbf{h}_u^t, \mathbf{h}_l^t$ 分别为用户和 POI 的隐藏层表示， $\mathbf{z}^{\Delta t},\mathbf{z}^{\Delta d}$ 为时空信息。