基于属性和关系信息联合嵌入的人物实体对齐方法及系统技术方案

技术编号:27006818 阅读:20 留言:0更新日期:2021-01-08 17:10
本发明专利技术属于网络安全应用技术领域,特别涉及一种基于属性和关系信息联合嵌入的人物实体对齐方法及系统,包含:收集网络中人物实体数据,提取实体属性信息和关系信息,分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度,以判定两个人物实体是否为同一实体。本发明专利技术综合人物实体属性信息和关系信息来计算实体之间相似度,充分利用实体非共有但有关联的信息进行实体对齐,提高在共有信息稀疏时对齐的准确度。

【技术实现步骤摘要】
基于属性和关系信息联合嵌入的人物实体对齐方法及系统
本专利技术属于网络安全应用
,特别涉及一种基于属性和关系信息联合嵌入的人物实体对齐方法及系统。
技术介绍
近年来,互联网在全世界范围内迅速普及,网络服务开始多样化,一个人往往同时访问多种网络服务,因此不同的网络平台或网站可能同时提供了关于同一人物相同或不同的信息。研究者为了发现某些人物全面、准确的信息,得判断在各个网络服务中散落的信息是否属于同一人物实体,即人物实体对齐。人物实体对齐技术在网络安全、商品推荐、信息检索等多个领域具有重要意义;例如:公安机关通过实体对齐技术,对网络犯罪嫌疑人进行更加细致的分析,推动破案进程;在商业领域,商家可以通过顾客全面、完整的信息为其进行有效的商品推荐,实现营销利益最大化等。人物实体对齐隶属于实体对齐,其研究方法主要分为两种:(1)基于字符串相似度的实体对齐算法。(2)基于知识嵌入的实体对齐算法。基于字符串相似度的实体对齐算法大多在共有属性丰富的情况下进行,例如:基于实体共有属性平均相似度的实体对齐算法;基于属性平均相似度对齐方法的基础上,加入属性标识度的定义并参与到对齐过程中,凸显不同属性在对齐过程中的作用。但是现有方法在利用实体的属性和关系信息解决实体对齐问题时,大多是基于实体的共有信息,而忽略了一些非共有但语义相近的属性信息,并且只考虑了一阶相邻实体之间的关系,导致在共有信息较少的情况下难以准确对齐实体。
技术实现思路
为此,本专利技术提供一种基于属性和关系信息联合嵌入的人物实体对齐方法及系统,综合人物实体属性信息和关系信息来计算实体之间相似度,充分利用实体非共有但有关联的信息进行实体对齐,提高在共有信息稀疏时对齐的准确度。按照本专利技术所提供的设计方案,一种基于属性和关系信息联合嵌入的人物实体对齐方法,包含如下内容:收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;依据人物实体相似度判定两个人物实体是否为同一实体。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步的,提取关系信息中,将人物实体通过关系连接,形成人物实体关系结构;依据人物实体关系结构获取人物实体关系结构信息和关系语义信息。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,将实体关系信息特征和属性信息特征通过利用TransE翻译模型进行特征嵌入,以获取关系向量和属性向量。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,特征嵌入中,依据人物实体关系结构信息及关系语义信息,综合人物实体一阶关系信息和二阶关系信息,利用基于距离的损失函数来获取用于刻画人物实体一阶关系信息的向量表示;依据一阶关系信息获取各实体的二阶关系信息,并利用另一个基于距离的损失函数来获取用于刻画人物实体二阶关系信息的向量表示;通过设置一阶关系信息和二阶关系信息两者向量表示的权重来获取人物实体的关系向量。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,利用信息熵计算人物实体每种属性的标识度,以利用包含属性标识度的属性信息来获取属性向量。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,依据人物实体属性的属性值在该人物实体属性所有属性值中出现的概率来计算属性的该人物实体属性的标识度,计算公式表示为:其中,为属性ak的第u个属性值,为属性值在该属性所有属性值中出现的概率,f表示人物实体属性元素数。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,将人物实体属性中,假设语义相关的属性值其语义向量相似,选择Hownet中文语义知识库,通过Hownet词向量表示方法得到属性值的语义向量,结合属性标识度,将人物实体与属性通过向量表示学习后,基于距离的损失函数获取用于刻画人物实体属性特征的属性向量。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,用于获取属性向量的损失函数表示为:其中,f(ak)、f(ak)'表示人物实体ed、ed'两者的属性ak的向量表示,A为人物实体正样本属性三元组集合,即原始的属性三元组数据集;A’为负样本属性三元组集合,即通过数据集中人物实体随机替换头实体或数据集中属性值向量随机替换尾属性值向量得到的三元组集合;γ为学习模型边界超参数。作为本专利技术基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,人物实体相似度拟合计算公式表示为:其中,为人物实体ei和ej的属性向量相似度,为实体的关系向量相似度,θ为属性向量相似度在人物实体相似度中的权重。进一步地,基于上述的方法,本专利技术还提供一种基于属性和关系信息联合嵌入的人物实体对齐系统,包含:特征提取模块、特征向量生成模块、相似度计算模块和实体对齐模块,其中,特征提取模块,用于收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;特征向量生成模块,用于依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;相似度计算模块,用于分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;实体对齐模块,用于依据人物实体相似度判定两个人物实体是否为同一实体。本专利技术的有益效果:本专利技术充分利用实体非共有但有关联的信息进行实体对齐,提高在共有信息稀疏时对齐结果的Hit@k值,从而能够判定多种网络服务不同网络平台或网站人物实体关系,提升人物实体对齐的准确有效性,对人物实体对齐技术在网络安全、商品对体检、信息检索等多个领域的应用具有指导意义,具有较好的应用前景和市场价值。附图说明:图1为实施例中人物实体对齐流程示意;图2为实施例中人物实体对齐算法原理示意;图3为实施例中百科数据集参数值选取示意;图4为实施例中知识库数据集参数选取示意;图5为实施例中属性标识度计算结果示意。具体实施方式:为使本专利技术的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本专利技术作进一步详细的说明。现有方法在利用实体的属性和关系信息解决实体对齐问题时,大多是基于实体的共有信息,而忽略了一些非共有但语义相近的属性信息,并且只考虑了一阶相邻实体之间的关系,导致在共有信息较少的情况下难以准确对齐实体。为此,本专利技术实施例,参见图1所示,提供一种基于属性和关系信息联合嵌入的人物实体对齐方法,参见图1所示,包含如下内容:S101、收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;S102、依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属本文档来自技高网...

【技术保护点】
1.一种基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,包含如下内容:/n收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;/n依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;/n分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;/n依据人物实体相似度判定两个人物实体是否为同一实体。/n

【技术特征摘要】
1.一种基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,包含如下内容:
收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;
依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;
分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;
依据人物实体相似度判定两个人物实体是否为同一实体。


2.根据权利要求1所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,提取关系信息中,将人物实体通过关系连接,形成人物实体关系结构;依据人物实体关系结构获取人物实体关系结构信息和关系语义信息。


3.根据权利要求1或2所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,将实体关系信息特征和属性信息特征通过利用TransE翻译模型进行特征嵌入,获取关系向量和属性向量。


4.根据权利要求3所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,特征嵌入中,依据人物实体关系结构信息及关系语义信息,综合人物实体一阶关系信息和二阶关系信息,利用基于距离的损失函数来获取用于刻画人物实体一阶关系信息的向量表示;依据一阶关系信息获取各实体的二阶关系信息,并利用另一个基于距离的损失函数来获取用于刻画人物实体二阶关系信息的向量表示;通过设置一阶关系信息和二阶关系信息两者向量表示的权重来获取人物实体的关系向量。


5.根据权利要求1所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,利用信息熵计算人物实体每种属性的标识度,以利用包含属性标识度的属性信息来获取属性向量。


6.根据权利要求1或5所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,依据人物实体属性的属性值在该人物实体属性所有属性值中出现的概率来计算属性的该人物实体属性的标识度,计算公式...

【专利技术属性】
技术研发人员:尹美娟刘晓楠王灿毛颖谭文治薛鑫卓刘又文
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1