【论文阅读】Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network

Metadata

authors:: Zhilun Zhou, Yu Liu, Jingtao Ding, Depeng Jin, Yong Li
container:: Proceedings of the ACM web conference 2023
year:: 2023
DOI:: 10.1145/3543507.3583239
rating:: ⭐⭐⭐⭐
share:: true
comment:: 基于LBSN构建知识图谱，分别学习全局知识和领域分层知识

前言

WWW 2023 的一篇论文：Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network

文章利用location-based social networks（LBSNs）以及知识图谱来进行社会经济指标预测，虽然任务不同，但LBSN数据集以及知识图谱的使用可以学习参考。

问题描述

定义 1 （LBSN Data）：LBSN数据集 $\mathcal{D}_{LBSN}$ 由空间数据、属性数据和移动性数据等多源数据组成。具体来说，空间数据包含了空间信息，如POI的地理坐标和边界。属性数据包括POI品牌、类别和其他属性信息。移动性数据可以是移动设备或出租车旅行的移动性记录，反应LBSN用户的移动轨迹。

定义 2 （Knowledge Graph）：一个知识图谱KG可以定义为 $\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{F})$ ，分别表示实体集合，关系集合以及事实集合。每一个事实可以表示为一个三元组 $(h,r,t)$ ，其中 $h,r\in\mathcal{E},r\in\mathcal{R}$ 分别表示头尾实体以及连接的关系。此外，每一个实体都有一个实体类型，通过映射函数 $\phi:\mathcal{E}\rightarrow\mathcal{A}$ 确定，其中 $\mathcal{A}$ 表示预定义的实体类型集合。KG schema 描述了KG的高级结构，它显示了实体的类型和实体类型之间的关系。

定义 3 （LBSN Socioeconomic Indicator Prediction）给定LBSN数据集 $\mathcal{D}_{LBSN}$ 以及LBSN中的地点集合 $\mathcal{S}_L=\{L_1,L_2,\cdots,L_n\}$ ，学习一个映射函数 $f:\mathcal{S_L}\rightarrow\mathcal{V_I}$ ，其中 $\mathcal{V_I}$ 是社会经济指标的价值集合 $I\in\mathcal{I}$ ，即，预测LBSN中各个地点的社会经济指标的价值。这里 $\mathcal{I}$ 指的是一组社会经济指标，它们衡量一个地区的社会经济情况，如人口、收入水平、教育水平等。

OverView

LBSN社会经济指标预测方法是位置表示学习，其旨在学习用于地点的低维嵌入向量。有效嵌入可以表征位置的各种属性，以帮助预测社会经济指标。例如，在工作日早上具有大量流出移动性和傍晚具有大量流入移动性的地点可能是城市中的住宅区，这表明由基于位置设备生成的移动性流数据可以反映地点功能。

现有工作不足：

大多数现有工作使用多视角图嵌入技术来模拟移动性、空间邻近性和LBSNs功能等多个因素。然而，这些工作在最终聚合过程中只考虑了位置，忽略了LBSNs中的其他元素，导致缺乏语义信息。例如，地点的功能很大程度上由其中的POI和类别所反映，而现有的研究并没有将这些元素纳入图中。
现有的研究未能从全局视角考虑LBSN中的知识。在LBSN中各种各样的知识深深地交织在一起，例如，在工作日早晨可能会有大量从居住区到工作区域流动，这表明LBSN 的移动性知识与其功能知识相关联。

论文提出了一种基于知识图谱的分层学习框架来解决LBSN中异构数据建模的挑战。

首先，论文构建了一个基于位置的知识图谱（LBKG），包括空间知识、功能知识、移动性知识和业务知识等各种LBSN中的知识。
其次，论文提出了一个分层KG学习框架来整合LB-SNs中的全局和领域知识。
最后，论文设计了一个多样化领域专业化融合模块来融合各种类型的领域专业化信息。

Methods

Framework

LBKG Construction

论文将与社会经济指标相关的LBSN知识（即空间知识、功能知识、移动性知识和商业知识）纳入LBKG中。

Spatiality knowledge

对于每个位置，论文选择最近的位置，并计算它们之间的距离以及人口差异（以对数尺度测量）。论文使用关系 “BorderBy” 将共享同一边界部分的位置链接起来， “NearBy” 关系将距离小于阈值的位置链接起来。BorderBy 和 _NearBy_描述了不同尺度下位置之间的邻近性知识，进一步丰富了空间知识。

Function knowledge

为了评估功能和社会经济指标之间的相关性，论文计算位置之间的功能相似度，即POI类别分布的余弦相似度。将每个POI作为实体并使用 “LocateAt” 关系将其链接到所在位置。使用 “CoCheckin” 关系描述POIs之间的地理影响。添加POI类别作为实体，并使用 “CateOf” 关系将每个POI与其所属类别链接。此外，计算每对位置的功能相似度，并使用 “SimilarFunc” 关系将每个位置与最相似的k个位置链接。

Mobility knowledge

通过聚合移动数据，得到了每两个位置之间的流动量，论文发现具有大型流动转换的地点往往具有较小的人口差异。具体而言，对于每个位置 $L$ ，根据位置 $L$ 的流出量选择流出量最大的前 $k$ 个位置，并以关系 “LargeFlowTo” 将 $L$ 与这些地点连接。同样地，根据以 $L$ 为目标地点的移动入流量选择前 $k$ 个位置，并以关系"LargeFlowFrom" 连接。

Business knowledge

考虑到商业知识在LBSN中与地点的社会经济地位相关，论文将商业区域实体作为LBKG中的核心活动区域，并通过 “ProvideService” 和 “BelongTo” 关系分别将其与位置和POI相连。此外，具有相同品牌且空间接近的POI之间通过关系 “Competitive” 进行链接以模拟它们之间的竞争关系。

Hierarchical Knowledge Distillation

Global Knowledge Distillation

为了从LBKG中提取全局知识，在实验中，论文采用了R-GCN模型[2]作为编码器，具体来说，实体 $e_i$ 在第 $(l+1)$ 层的聚合可以表示为：

$\mathbf{e}_i^{(l+1)} = \sigma(\sum_{r\in\mathcal{R}}\sum_{j\in\mathcal{N}_i^r} W_r^{(l)}\mathbf{e}_j^{(l)} + W_0^{(l)}\mathbf{e}_i^{(l)})$

其中 $\mathbf{e}_i^{(l)}$ 表示实体 $e_i$ 在R-GCN第 $l$ 层的嵌入表示， $\mathcal{N}_i^r$ 表示与实体 $e_i$ 通过关系 $r$ 相关联的实体集合， $W_r^{(l)}, W_0^{(l)}$ 为可学习参数矩阵。

Domain Knowledge Distillation

不同的知识需要在不同层次上考虑，因为功能相似的位置可能在地理上相距很远。因此，LBKG提取了几个子图来捕捉LBSN中的领域知识。

Spatiality sub-KG：利用关系 NearBy 和 BorderBy 获取空间知识
Function sub-KG：提取 locations，POIs和Categories节点以及它们之间的关系
Mobility sub-KG：利用关系 LargeFlowTo 和 LargeFlowFrom 获取转移知识
Business sub-KG：利用关系 BelongTo，ProvideService 和 Competitive 获取商业知识

由于不同的知识可能对社会经济指标的预测有不同的贡献，论文进一步采用了知识融合模块[3]来自适应地融合知识。具体来说， $\{G_1,G_2,\cdots,G_M\}$ 表示sub-KGs集合，计算每个子kg的重要性为：

$w_{G_k} = \frac{1}{\vert\mathcal{S_L}\vert} \sum_{j\in\mathcal{S_L}} q^\top \tanh(W\mathbf{e}_j^{G_k} + b)$

其中 $\mathcal{S_L}$ 为地点集合， $\mathbf{e}_j^{G_k}$ 表示地点 $L_j$ 在子图sub-KG $G_k$ 的嵌入表示， $q$ 为注意力向量。每个子图的权重通过下式计算：

$\beta^{G_k} = \frac{\exp(w_{G_k})}{\sum_{j=1}^M \exp(w_{G_j})}$

最后进行子图融合：

$\mathbf{e}_j^{sub} = \sum_{j=1}^M \beta^{G_k}\mathbf{e}_j^{G_k}$

Framework Optimization

为更好地保留知识图谱中的语义知识和位置相似性，论文设计了知识图谱补全损失来捕捉高层次的KG事实可信度，并使用位置损失来保持低层次的位置相似性。

KG Completion Loss

为了更好地学习LBKG中的全局知识，在使用全局知识编码器后，使用评分函数 DistMult 来计算LBKG中每个三元组 $(h,r,t)$ 的合理性：

$\phi(h,r,t) = (\mathbf{e}_h\odot\mathbf{e}_r)^\top \mathbf{e}_t$

修改之后的损失函数如下：

$\mathcal{L}_{KG} = \sum_{(h,r,t)\in\mathcal{F}} -\log\frac{\exp(\phi(h,r,t))}{\sum_{t'\in\mathcal{E}}\exp(\phi(h,r,t'))}$

Location Loss

此外，论文也设计了位置损失来捕获位置的相似性。论文首先将全局知识和领域知识进行融合 $\mathbf{e}^{fuse} = \mathbf{e}^{KG} + \mathbf{e}^{sub}$ ，并计算概率分布：

$\hat{p}(L_j \vert L_i) = \frac{\exp({\mathbf{e}_i^{fuse}}^\top\mathbf{e}_j^{fuse})}{\sum_{k=1}^n \exp({\mathbf{e}_i^{fuse}}^\top\mathbf{e}_k^{fuse})}$