一种基于聚集图的表示学习方法技术

技术编号:24574842 阅读:28 留言:0更新日期:2020-06-21 00:13
本发明专利技术涉及一种基于聚集图的表示学习方法,属于聚集图技术领域。本发明专利技术首先利用图聚集算法同时考虑分组间及分组内的结构得到最终的聚集图;其次,在聚集图上计算随机游走的转移概率,然后选择每个具有偏差概率的后继节点并生成节点序列;最后将节点序列输入到skip‑gram学习用户的潜在表示,获得节点的表示向量。本发明专利技术一定程度上减轻了数据稀疏性并保持图数据中的网络结构相似性及降低计算复杂度同时增强表示向量在任务上的效果。

A representation learning method based on aggregation graph

【技术实现步骤摘要】
一种基于聚集图的表示学习方法
本专利技术涉及一种基于聚集图的表示学习方法,属于聚集图

技术介绍
随着信息技术的发展以及人们产生的数据越来越多,比如:利用社交媒体进行交流、浏览网页以及一些购物网站等产生大量的数据。很多事物之间的关系都可以用网络表示出来,比如用户与用户之间及用户与项目之间存在各种关系都可以表示成一个网络,这样表示的好处是为了后期进行各种任务的挖掘。现有的网络表示学习方法主要有三种即:1)基于矩阵分解的方法如普聚类等,通常基于矩阵的方法都需要对特定矩阵进行分解如使用SVD分解;2)基于生成模型的算法如LINE等,根据网络结构建立一个概率分布通过一些技术建立目标函数进而进行优化;3)基于深度学习的算法如deepwlk等,定义一个目标函数,利用深度学习模型进行学习如自编码器。然而,这些方法仍然存在一些极限性:首先,只考虑网络拓扑结构的基本信息未考虑真实网络节点本身的信息;其次,不能同时兼顾边和节点的信息;最后,当前的网络表示学习方法未考虑空间存储的局限性及隐私保护方面。
技术实现思路
本专利技术要解决的技术问题是提供一种基于聚集图的表示学习方法,用以解决上述问题。本专利技术的技术方案是:一种基于聚集图的表示学习方法,首先通过图聚集技术获取聚集图数据;其次,在聚集图上进行随机游走捕获节点的信息并生成序列;最后,把节点序列输入到skip-gram进行嵌入得到表示向量。具体步骤为:Step1:获取聚集图数据;Step2:在聚集图上计算随机游走的转移概率;Step3:选择每个具有偏差概率的后继节点并生成节点序列;Step4:将节点序列输入到skip-gram学习用户潜在表示。进一步的,所述Step1具体为,利用图聚集技术将原图中的数据分成k个超点,最终结果边上的权重表示两点之间链接的概率,从而得到聚集图数据。进一步的,所述Step2中转移概率的目标函数为:式中,Zu代表每个节点的函数,f(u)是将顶点u映射为嵌入向量的映射函数。本专利技术的有益效果是:1、本专利技术设计了一种聚集图上的随机游走方案并进行网络表示学习,更符合边稀疏的真实网络;2、该方法方便并且能有效的随机游走选择邻居节点,捕捉网络中节点的信息。进一步提升在低维嵌入中捕获的网络拓扑结构效果;3、本专利技术同时考虑了存储空间和隐私问题更适用于大规模的网络结构的表示。附图说明图1是本专利技术的步骤流程图;图2是本专利技术中聚集图的同构性及邻近性展示图;图3是本专利技术中聚集图上的表示学习执行示意图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1所示,一种基于聚集图的表示学习方法,首先通过图聚集技术获取聚集图数据;其次,在聚集图上进行随机游走捕获节点的信息并生成序列;最后,把节点序列输入到skip-gram进行嵌入得到表示向量。具体步骤为:Step1:获取聚集图数据;Step2:在聚集图上计算随机游走的转移概率;Step3:选择每个具有偏差概率的后继节点并生成节点序列;Step4:将节点序列输入到skip-gram学习用户潜在表示。所述Step1包括如下步骤:Step1.1:将原图利用图聚集技术将数据分成k个超点,最终结果边上的权重表示两点之间链接的概率,从而得到聚集图数据。所述Step2包括如下步骤:Step2.1:考虑到聚集图的邻近性及同构性,即聚集图上距离越近的节点及结构相近的节点相似的可能性越大。在图2中,超点x和超点y属于同构性节点,超点x和超点d属于邻近性节点,因而采用同时兼顾两种特性的方法进行有偏的随机游走,捕获相似节点。Step2.2:设f(u)是将顶点u映射为嵌入向量的映射函数,对于图中每个顶点u,定义Ns(u)为通过采样策略S采样出的顶点u的近邻顶点集合。通过式(1)计算近邻顶点出现的概率:maxf∑u∈vlogp(Ns(u)|f(u))(1)为使上述问题得到最优化解,进行如下两方面的假设:条件独立性假设:假设给定起始顶点下,其近邻顶点出现的概率与近邻集合中其余顶点无关。用公式(2)表示:特征空间对称性假设:一个顶点作为起始顶点和作为近邻顶点的时候共用同一嵌入向量。与LINE中的2阶相似度,一个顶点作为起始点和近邻点的时候是拥有不同的嵌入向量不一样,在这个假设下,上述条件概率公式可表示为:由上述假设可得最终的目标函数如下:其中,Zu代表每个节点的函数,表示为:所述Step3包括如下步骤:Step3.1:为了减少计算量的同时更好的保留聚集图的原始信息并获得潜在的信息,采用有偏的随机游走获取顶点的近邻序列。给定当前顶点v,访问下一个顶点x的概率为:其中,πvx是顶点v和顶点x之间未归一化的转移概率,Z是归一化常数。引入两个超参数p和q来控制游走的策略,假设当前随机游走经过边(t,v)到达顶点v时,设πvx=αpq(t,x).ωvx,ωvx是顶点v和x之间的权值。其中,dtx为顶点v到x的最短路径的距离。超参数p和q对游走策略均有影响。p决定再访问节点的可能性,为返回参数。若p值调高(>max(q,1)),这样可以保证在两步内采样已访问过的节点的可能性比较低;若p调低(<min(q,1)),会使得游走变得比较局限于局部。q称为里外参数,q>1游走会选择离t近的节点,以此达到接近广度优先遍历的效果;q<1游走会选择离t较远的节点,达到类似深度优先遍历的效果。所述Step4包括如下步骤:Step4.1:Skip-gram嵌入学习节点的表示,对于随机游走,可以获得基于聚集图的步行序列,这是一个旨在学习的Skip-Gram模型通过预测节点上下文的节点嵌入向量。通常,目标是使上下文出现的概率最大化,在给定的中心节点下,即:形式上,给定一系列单词目标函数是:其中,b是上下文的窗口大小,p(ωt′|ωt)定义为Softmax函数。同样,最大化每个节点共现的概率随机行走Wv固定长度L:其中,τ是vt′上下文的窗口大小,即vt-τ...vt+τ。因此,SkipGram学习了一个嵌入E的特征,其中包含|v|×l自由参数,v是聚集图上所有节点的集合和E的每一行表示特定用户的特征向量,具有大小l。图3为一个聚集图上的表示学习的执行过程。真实世界网络规模庞大,为了高效的计算,分层Softmax应用于近似p(vt′|E(vt)为了避免在Softmax中归一化函数的复杂性计算。模拟以每个节点为根的T行走生成语义社会语料库并使用随机梯度下降训练。以上结合附图对本专利技术的具体实施方式作了详细说明,但是本专利技术并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不本文档来自技高网...

【技术保护点】
1.一种基于聚集图的表示学习方法,其特征在于:/nStep1:获取聚集图数据;/nStep2:在聚集图上计算随机游走的转移概率;/nStep3:选择每个具有偏差概率的后继节点并生成节点序列;/nStep4:将节点序列输入到skip-gram学习用户潜在表示。/n

【技术特征摘要】
1.一种基于聚集图的表示学习方法,其特征在于:
Step1:获取聚集图数据;
Step2:在聚集图上计算随机游走的转移概率;
Step3:选择每个具有偏差概率的后继节点并生成节点序列;
Step4:将节点序列输入到skip-gram学习用户潜在表示。


2.根据权利要求1所述的基于聚集图的表...

【专利技术属性】
技术研发人员:游进国周林娥李晓武
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1