基于结构语义融合的大规模混合图特征学习方法技术

技术编号：17780408 阅读：47 留言：0更新日期：2018-04-22 09:16

本发明专利技术提供一种基于结构语义融合的大规模混合图特征学习方法，包括：获取训练语义标签信息集Strain，获取节点对集Pe，Pe＝{(u,v)}，遍历节点对(u,v)；判断遍历节点对(u,v)是否完成；若判断获知遍历节点对(u,v)未完成，则对节点u进行负采样，并计算相连损失函数和不相连损失函数；若判断获知节点u在Vtrain中，则根据Strain计算语义损失函数；更新节点u的初始化特征表示、节点v的初始化特征表示以及负采样得到的节点的初始化特征表示；重复判断遍历节点对(u,v)是否完成，直到遍历节点对(u,v)完成。本发明专利技术提供的基于结构语义融合的大规模混合图特征学习方法，根据语义标签信息对节点的特征表示进行校正，将语义标签信息作为图特征学习的一部分，提高了图特征学习的质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于结构语义融合的大规模混合图特征学习方法
本专利技术涉及计算机数据分析
，尤其涉及一种基于结构语义融合的大规模混合图特征学习方法。
技术介绍
从图中可以挖掘大量有价值的信息，例如哪些节点具有较高的相似度，哪些节点形成了一个社区，可能存在哪些潜在的连接关系等。图特征学习作为图数据挖掘领域的一个重要技术，为在图数据上应用机器学习算法提供了基础。图特征学习的目标是为图中每个节点生成一个特征向量，以作为机器学习算法的输入，得到符合图特性的分析结果或者模型。现有技术中公开了多种图特征学习方法，其中大批工作针对如何保持图结构的问题被提出，并且这类基于连接结构的图特征学习方法取得了很好的效果。但是在实际应用中，图节点经常带有一些标签，比如社交网络中个人的教育背景、职业背景、兴趣爱好，内容分享网站中博客和图文的标签、分组等。这些标签对于图数据挖掘问题具有重要意义，而这些标签包含的信息往往无法通过基于连接结构的图特征学习方法挖掘到。另外，有一些研究工作基于图节点社区信息、图节点附带的文本或图片信息来进行图特征学习。现有技术中基于连接结构的图特征学习方法无法挖掘到图节点标签包含的信息，而基于图节点社区信息、图节点附带的文本或图片信息来进行图特征学习的方法不适用于对标签信息的挖掘，也不能法挖掘到图节点标签包含的信息，图特征学习的质量较低。
技术实现思路
(一)要解决的技术问题本专利技术的目的是提供一种基于结构语义融合的大规模混合图特征学习方法，解决了现有技术中的图特征学习方法不能挖掘到图节点标签包含的信息，以及图特征学习质量较低的技术问题。(二)技术方案为了解决上述技术问题...

【技术保护点】
一种基于结构语义融合的大规模混合图特征学习方法，其特征在于，包括：获取训练语义标签信息集Strain，所述Strait为训练节点集Vtrait对应的语义标签信息的集合，所述Vtrain是从图中按照预设采样比例随机采样获得的若干个节点的集合，所述图为G，G＝(V,E,S)，其中，V为图节点，E为图中的边，S为图语义标签信息；获取节点对集Pe，Pe＝{(u,v)}，其中，节点对(u,v)为所述节点对集Pe中的一个元素，节点u和节点v为从所述E中采样获得的某条边对应的两个节点；遍历所述节点对集Pe中的所有节点对(u,v)；判断所述遍历是否完成；若判断获知所述遍历未完成，则对所述节点u进行负采样，并计算相连损失函数和不相连损失函数；若判断获知所述节点u在所述Vtrain中，则根据所述Strain计算语义损失函数；根据相连损失函数、不相连损失函数和语义损失函数，更新所述节点u的初始化特征表示、所述节点v的初始化特征表示和所述负采样得到的节点的初始化特征表示，得到所述节点u的新的特征表示、所述节点v的新的特征表示以及所述负采样得到的节点的新的特征表示；重复判断所述遍历是否完成，直到所述遍历完成。

【技术特征摘要】
1.一种基于结构语义融合的大规模混合图特征学习方法，其特征在于，包括：获取训练语义标签信息集Strain，所述Strait为训练节点集Vtrait对应的语义标签信息的集合，所述Vtrain是从图中按照预设采样比例随机采样获得的若干个节点的集合，所述图为G，G＝(V,E,S)，其中，V为图节点，E为图中的边，S为图语义标签信息；获取节点对集Pe，Pe＝{(u,v)}，其中，节点对(u,v)为所述节点对集Pe中的一个元素，节点u和节点v为从所述E中采样获得的某条边对应的两个节点；遍历所述节点对集Pe中的所有节点对(u,v)；判断所述遍历是否完成；若判断获知所述遍历未完成，则对所述节点u进行负采样，并计算相连损失函数和不相连损失函数；若判断获知所述节点u在所述Vtrain中，则根据所述Strain计算语义损失函数；根据相连损失函数、不相连损失函数和语义损失函数，更新所述节点u的初始化特征表示、所述节点v的初始化特征表示和所述负采样得到的节点的初始化特征表示，得到所述节点u的新的特征表示、所述节点v的新的特征表示以及所述负采样得到的节点的新的特征表示；重复判断所述遍历是否完成，直到所述遍历完成。2.根据权利要求1所述的方法，其特征在于，还包括：根据节点语义标签信息si和标签lj，生成标签lj的特征表示LFj，其中，所述节点语义标签信息si为训练节点i的语义标签信息，所述si为所述Strain中的元素，所述标签lj为标签集Lj中的元素，所述标签集Lj为训练节点i所包含的标签的集合，所述训练节点i为所述Vtrain中的节点，j为正整数。3.根据权利要求1所述的方法，其特征在于，还包括：根据正态分布函数随机初始化所述V的特征表示，得到所述V的特征表示的集合NF，NF＝{NFk,k∈[1,n]}，其中，NFk为节点k的特征表示，n为所述V中节点的个数，n、k为正整数。4.根据权利要求1所述的方法，其特征在于，所述获取节点对集Pe，Pe＝{(u,v)}具体为：根据所述E中每条边的权重占所有边权重之和的比例对所述E进行采样，得到节点对集Pe，Pe＝{(u,v)}，其中，节点对(u,v)为所述节点对集Pe中的一个元素，节点u和节点v为从所述E中采样获得的某条边对应的两个节点。5.根据权利要求1所述的方法，其特征在于，所述对所述节点u进行负采样，并计算相连损失函数和不相连损失函数具体为：根据预设正负比例对所述节点u进行负采样，得到节点对集其中，节点对(u,w)为所述节点对集中的一个元素，节点u和节点w为不相邻的两个节点；计算相连损失函数，具体为，其中，Lossstructure(u,v)为相连损失函数，NFu为节点u的特征表示，NFv为节点v的特征表示；计算不相连损失函数，具体为，其中，...

【专利技术属性】
技术研发人员：王建民，龙明盛，裴忠一，黄向东，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人