融合多社交媒体平台的知识图谱邻域结构非同构的实体对齐方法技术

技术编号:35817274 阅读:14 留言:0更新日期:2022-12-03 13:41
本发明专利技术涉及一种融合多社交媒体平台的知识图谱邻域结构非同构的实体对齐方法,包括:采集并融合多社交媒体平台的数据,根据用户的交互行为以及主题内容构建知识图谱;计算实体间的注意力权重,得到对中心实体贡献更大的邻居实体;通过拓扑不变函数分别对实体的单跳和两跳邻居进行聚合,补充实体的单跳和两跳邻居表示信息;利用门控机制结合单跳和两跳邻居表示,得到实体表示;根据对齐模块计算实体间的相似度,获得实体对齐的结果。本发明专利技术利用邻域结构非同构的实体对齐模型减弱非同构实体在图结构转换和传统图卷积网络转换中的特征损失,解决了实体非同构性所带来的问题,使得实体对齐的结果更加精准。体对齐的结果更加精准。体对齐的结果更加精准。

【技术实现步骤摘要】
融合多社交媒体平台的知识图谱邻域结构非同构的实体对齐方法


[0001]本专利技术涉及机器学习领域,尤其涉及融合多社交媒体平台数据的知识图谱邻域结构非同构的实体对齐方法。

技术介绍

[0002]随着在线社交媒体近年来越来越流行,用户在各媒体平台上的历史用户数据包含了多种不同时间、地点、人物、事件、内容等信息,构成表示为多维度异构网络的知识图谱。用户可能会利用不同的社交媒体平台区分不同的需求,所以同一个用户可能在多个不同的社交媒体平台上产生不同的信息记录。例如,某用户可以使用脸书与其朋友分享近日生活趣事和心情,使用推特了解最新的新闻和时事。然而,同一用户在不同社交媒体平台上拥有的账户以及发表的言论大多数是孤立的,相互之间没有关联。
[0003]判断不同社交媒体平台构建的知识图谱中的用户实体是否指向真实世界同一用户的过程称为用户实体对齐,将不同社交媒体平台构建的知识图谱中的用户实体对齐对于实际生活中的许多跨平台应用具有很大的价值。例如,在将脸书和推特的用户实体进行对齐后,可以利用某一用户在脸书上对应的用户实体的个人兴趣以及社交关系等进行针对性地分析,然后利用分析结果向该用户的推特推送该用户可能会感兴趣的新话题或可能会关注的新朋友。
[0004]现行的用户实体对齐解决方案主要依赖于知识图谱的图结构,基于多平台社交媒体数据知识图谱实体具有邻域同构特性的假设。在从大规模知识图谱中提取的一些合成数据集上这些方法取得了一流的性能,然而合成数据集是由现实数据集提取和整理后产生的,目前的对齐算法在实际结构多样的数据集上不能产生令人满意的结果。
[0005]现实生活中的知识图谱只有少部分实体是严格同构,并且联系频繁,交流丰富,而大多数实体只含有少量的机构信息,并且是联系较为稀疏的远邻居。因此,目前的实体对齐算法仅假设信息同构在现实数据上的表现不好,需要考虑知识图谱构建过程中对实体特征的影响。

技术实现思路

[0006]要解决的技术问题
[0007]针对融合多社交媒体平台数据的知识图谱邻域结构非同构的实体对齐结果不够精准,提出了一种邻域结构非同构的实体对齐模型,引入加入转换不变函数的图卷积神经网络和图注意力机制。该方法可以最大程度的保留知识图谱中实体的原始特征,精准的表示节点的信息,提升对齐结果的精准性。
[0008]技术方案
[0009]一种融合多社交媒体平台的知识图谱邻域结构非同构情况实体对齐方法,其特征在于步骤如下:
[0010]S1、根据用户实体在多个社交媒体平台上的交互以及交互主题内容构建知识图谱;
[0011]S2、计算实体间的注意力权重,标记对中心实体贡献更大的邻居实体;
[0012]S3、通过拓扑不变函数分别对实体的单跳和两跳邻居进行聚合,补充实体的单跳和两跳邻居表示信息;
[0013]S4、利用门控机制结合单跳和两跳邻居表示,得到实体表示;
[0014]S5、根据对齐模块计算处理后的实体表示,得到实体间相似度,获得对齐的最终结果。
[0015]进一步的,所述S1所构建的知识图谱中,所述用户、评论主题均作为其实体节点,用户与用户、用户与评论主题以三元组<h,r,t>的方式构成知识图谱。
[0016]进一步的,所述S2中,计算实体间的注意力权重方法具体为:
[0017]S21:根据知识图谱,引入图注意力网络;
[0018]S22:针对中心实体和两跳及以上邻居节点应用图注意力网络;
[0019]S23:使用矩阵和分别对中心实体以及邻居实体进行线性变换,得出实体的注意力权重;
[0020]S24:使用softmax函数归一化标注实体邻居节点的注意力权重。
[0021]进一步的,所述S3中,通过拓扑不变函数对知识图谱进行实体嵌入为:
[0022]S31:根据知识图谱和S2处理后的实体表示,提取实体的特征矩阵
[0023]S32:将特征矩阵输入转换不变函数Mask gate MG
(l)
中;
[0024]S33:将上一步函数输出值MG
(l)
(H
(l)
)输入图卷积神经网络;
[0025]S34:应用转换不变函数Highway gate对原始特征及线性转换后的特征进行插值;
[0026]S35:输出基于图卷积神经网络的转换不变函数的实体嵌入后的知识图谱。
[0027]进一步的,所述S4中,利用门控机制结合单跳和两跳邻居表示的方法具体为:
[0028]S41:利用公式聚合表示S2所得到的实体与其两跳邻居的注意力权重;
[0029]S42:通过门控机制合并实体的单跳和两跳邻居的聚合表示,控制S3图卷积神经网络中多图层传递引入的噪声,优化知识图谱表示。
[0030]进一步的,所述S5中,根据对齐模块计算实体间的相似度,获得实体对齐结果的方法具体为:
[0031]S51:引入曼哈顿距离计算公式计算S4所得实体嵌入之间的距离度量;
[0032]S52:返回各源实体的目标实体排序列表,排名最高即视为对齐。
[0033]一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
[0034]一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
[0035]有益效果
[0036]本专利技术提供一种融合多社交媒体平台的知识图谱邻域结构非同构的实体对齐方
法,采集并融合多社交媒体平台的数据,根据用户的交互行为以及主题内容构建知识图谱。由于社交媒体上的用户的交互信息及关系并非均为同一架构,在知识图中体现为邻域结构的非同构,所以在本专利技术中考虑引入图卷积神经网络减弱图结构对最终实体表示的影响,较之传统的图卷积网络加入了转换不变函数的GCN获取实体单跳邻居表示,降低GCN聚合和转换过程中的耦合性,使得转换过程中实体的原始特征得以保留,而不是只聚合邻域的实体特征;再者,在模型中引入多跳邻居扩展对齐实体邻域结构的重叠,使用注意力机制突出对实体表示有用的邻居,弱化部分没有贡献的远邻居,进一步优化聚合效果,降低邻域结构非同构的影响;其后,对聚合过程中层间传递的噪音进行处理,使用门控机制控制噪声的传递。最后通过对齐模块计算实体表示之间的相似度,根据实体嵌入之间的特定距离度量,为每个源实体返回目标实体排序列表,确定实体对齐的效果,获得实体对齐的结果。本专利技术利用邻域结构非同构的实体对齐模型减弱非同构实体在图结构转换和传统图卷积网络转换中的特征损失,解决了实体非同构性所带来的问题,使得实体对齐的结果更加精准。
附图说明
[0037]附图仅用于示出具体实施例的目的,而并不认为是对本专利技术的限制,在整个附图中,相同的参考符号表示相同的部件。
[0038]图1为本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多社交媒体平台的知识图谱邻域结构非同构情况实体对齐方法,其特征在于步骤如下:S1、根据用户实体在多个社交媒体平台上的交互以及交互主题内容构建知识图谱;S2、计算实体间的注意力权重,标记对中心实体贡献更大的邻居实体;S3、通过拓扑不变函数分别对实体的单跳和两跳邻居进行聚合,补充实体的单跳和两跳邻居表示信息;S4、利用门控机制结合单跳和两跳邻居表示,得到实体表示;S5、根据对齐模块计算处理后的实体表示,得到实体间相似度,获得对齐的最终结果。2.根据权利要求1所述融合多社交媒体平台的知识图谱邻域结构非同构情况实体对齐方法,其特征在于:所述S1所构建的知识图谱中,所述用户、评论主题均作为其实体节点,用户与用户、用户与评论主题以三元组<h,r,t>的方式构成知识图谱。3.根据权利要求2所述融合多社交媒体平台的知识图谱邻域结构非同构情况实体对齐方法,其特征在于:所述S2中,计算实体间的注意力权重方法具体为:S21:根据知识图谱,引入图注意力网络;S22:针对中心实体和两跳及以上邻居节点应用图注意力网络;S23:使用矩阵和分别对中心实体以及邻居实体进行线性变换,得出实体的注意力权重;S24:使用softmax函数归一化标注实体邻居节点的注意力权重。4.根据权利要求3所述融合多社交媒体平台的知识图谱邻域结构非同构情况实体对齐方法,其特征在于:所述S3中,通过拓扑不变函数对知识图谱进行实体嵌入为:S31:根据知识图谱和S2处理后的实体表示,提取实体的特征矩阵S32:将特征矩阵输入...

【专利技术属性】
技术研发人员:王柱陈雅宣刘慧梁桐嘉何私琦郭斌於志文
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1