【技术实现步骤摘要】
一种基于分层负采样的网络表示学习方法
[0001]本专利技术涉及数据挖掘和机器学习
,更具体地,涉及一种基于分层负采样的网络表示学习方法。
[0002]应用场景
[0003]例如在社交网络中,每个用户可以看成是一个顶点,用户与用户的社交关系可以用顶点间的连接边来表示,当用新的用户出现时候,如何为新用户推荐与之最可能的相关用户,是本专利技术要处理的场景之一。同理的场景还有在引文网络中,文章可以看成是一个顶点,文章与文章的引用关系可以看成是顶点间的连接边,当有新的文章出现时,如何为该文章检索到与之潜在相关的文章,也是本专利技术可以处理的场景。
[0004]在本专利技术中,提出了一种基于分层负采样的网络表示学习方法,可以比以往方法学习到更具判别能力的顶点表示向量,即基于顶点的网络结构,把顶点间的关系映射到低维度的向量空间。在获得顶点的表示向量后,可使用简单的判别方法(例如SVM)或聚类方法(Kmeans),完成顶点分类、链路预测和社群检测等任务。
技术介绍
[0005]随着社交网络的快速发展,大量网络 ...
【技术保护点】
【技术特征摘要】
1.一种基于分层负采样的网络表示学习方法,包括以下步骤:针对网络G=(V,E),获取一组随机游走序列S={s1,
…
,s
M
},其中,N为顶点集合的大小,M表示随机游走的次数,V表示顶点集,表示边的集合,每个游走序列s由一组顶点组成{v1,
…
,v
N
};对于每组随机游走序列,对顶点的领域信息进行建模,以确定目标顶点的潜在社区结构;基于所述潜在社区结构,为各顶点计算其为目标顶点的负样本的概率,以采样负样本;基于所采样的负样本优化设定的目标函数,进而确定顶点表示学习向量。2.根据权利要求1所述的方法,其特征在于,利用层次狄利克雷过程生成概率图模型来确定所述潜在社区结构,包括以下步骤:对所有已知的社区C进行概率分布的建模G0∣γ,C~Dir(γ/C),其中,G0表示狄利克雷过程的基分布,Dir(γ/C)表示随机游走序列关于社区相关程度的狄利克雷先验分布,γ是超参数,C表示社区的数量大小;对于每个社区c∈{1,2,
…
,C},将每个顶点属于该社区的概率设置为其中,Dir(β)表示随机游走序列中某个顶点关于社区相关程度的狄利克雷先验分布,β是超参数;对于每个游走序列s,根据权重θ
s
∣α,G0~DP(α,G0),采样获取该游走序列所在的社区,并且对于该游走序列中的每个顶点v∈{v1,v2,
…
,v
N
}执行:根据权重Z
S,v
∣θ
S
~Multinomial(θ
S
),为顶点采样一个社区的分配;从分配的社区中获取顶点的生成概率其中,DP表示狄利克雷过程,α代表顶点v属于所分配的新社区的权重,表示在社区c中与该社区相关的顶点的概率分布,表示序列s中的顶点v与采样出来的某个社区的相关程度的权重,Multinomial表示多项式。3.根据权利要求2所述的方法,其特征在于,采用吉布斯采样对所述概率图模型的参数进行推理,包括:对于游走序列s,该游走序列中的每个顶点v,存在一个潜在的社区权重的分布Z
s,v
;利用狄利克雷分布是多项式分布的共轭先验分布的特性,将与社区分布相关的参数θ
S
和被积分消掉,进而对于游走序列s内的除当前顶点v以外的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。