一种四险一金领域知识图谱中实体对齐方法技术

技术编号:26845664 阅读:24 留言:0更新日期:2020-12-25 13:07
本发明专利技术属于知识图谱技术领域,具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明专利技术提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数,将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。本发明专利技术将实体嵌入的语义信息与字符信息进行组合,将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。本发明专利技术可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

【技术实现步骤摘要】
一种四险一金领域知识图谱中实体对齐方法
本专利技术属于知识图谱
,具体涉及一种四险一金领域知识图谱中实体对齐方法。
技术介绍
自Google在2012年提出知识图谱的概念开始,知识图谱发展迅速,出现了一批以DBpedia,Freebase,Wikidata,YAGO等为代表的大型知识图谱;但知识图谱的数据来源广泛、数据质量参差不齐,导致不同的知识图谱存在着多样性和异构性,不同知识图谱中存在着多个指向同一真实世界对象的不同实体,因此知识融合成为知识图谱研究中的一个重要环节。实体对齐作为知识融合中的关键技术,又被称为实体匹配,是推断来自不同知识图谱中不同实体是否映射到现实世界中同一个对象的技术。实体对齐主要包含数据预处理、分块、记录链接、结果评估、结果输出几个步骤。早期的实体对齐方法主要通过属性的字符相似度计算实体的属性相似度,并通过机器学习方法判断实体是否相似;属性相似度的计算方法主要包括编辑距离(LevenshteinDistance)、WagnerandFisher、Jaccard系数、TF-IDF等。基于字符相似度的实体对齐方法将实体对齐看作二分类问题,即根据属性三元组信息选择一对实体并根据属性相似性判断实体之间是否对齐。成对实体匹配方法通过实体属性相似性生成属性相似度向量,并通过机器学习方法进行判断;因此实体对齐任务需要标记对齐的实体作为分类器的训练集,实体对齐的性能依赖于对齐种子的数量。为了提高模型在少量对齐种子时的对齐效果,Ursin等人[1]在2019年提出了一种用于非结构化数据匹配的主动学习方法,该方法首先通过SoftTF-IDF算法计算属性之间的相似度,结合非确定性抽样的主动学习(ALWUS),在每个弱分类器上使用独立的训练集进行训练,并将未标记的数据输入到分类器上计算bootstrap方差,根据bootstrap方差每次选出不确定强的少量样本进行标记。在Abt-Buy数据集上的测试结果表明,该方法在支持向量机(SVM)学习器上获得了81.65%的F-值,与传统的方法相比需要的标签数量低1-2个数量级。不过该方法仅利用了属性三元组中的信息,不能对实体间的关系进行捕获,同时需要根据每个批量的预测结果增量的标记数据,操作较为复杂。近年来知识图谱的向量表示取得了很多进展,知识表示学习的代表模型包括张量模型、翻译模型和神经网络模型。知识表示学习可以捕获实体在知识图谱中的语义信息,将实体和关系映射为稠密向量。在基于翻译的知识表示模型中,Bordes等人[2]在2013年提出了TransE模型,该模型关注关系三元组中实体与实体之间的关系,将尾实体向量t看作是头实体向量h加关系向量r的翻译,并将评分函数定义为||h+r-t||。TransE模型在减小黄金三元组得分的同时增大无效三元组的得分,通过对黄金三元组的头尾实体随机替换的方式生成无效的三元组用于负采样的训练,并使用梯度下降算法进行训练,TransE在FB15k数据集上的链接预测实验中获得了43%的hits@10准确率。TransE模型虽然能够捕获三元组之间的语义关系,但是它不能很好的处理实体之间存在1-N,N-1,N-N等复杂关系,因此Wang等人[3]在2014年提出了TransH模型使每一个实体在不同的关系下拥有不同的表示,该模型为每一个关系引入了一个投影超平面,将头实体h与尾实体t在超平面上的投影与关系向量进行评估,并使用基于距离的函数进行打分,TransH模型在FB15k数据集的链接预测任务中,获得了66.8%的hits@10准确率,TransH模型解决了实体嵌入中一对多关系的问题。类似的,Lin等人[4]在2015年提出了TransR模型,TransR模型假设实体和关系存在于不同的向量空间中,将实体向量映射到对应的关系空间中,再对映射后的向量进行对齐;由于知识图谱中的关系广泛存在多义性,进一步提出了CTransR模型,该模型先通过训练TransE嵌入,从TransE嵌入的头尾实体之差中获取关系的表示向量,再对关系进行聚类,能够很好的解决关系的多义性问题,TransR、CTransR模型在FB15K的链接预测任务中分别达到了76.9%和81.5%的hits@10准确率。不过,TransR/CTransR模型都没有考虑实体的类型信息、并且TransR模型由于引入了映射矩阵存在参数计算复杂的问题。Ji等人[5]在2016年提出TransD模型使用动态映射矩阵可以将不同类型的实体进行区别,TransD与TransH的区别在于,TransH中的投影向量仅由关系确定,而TransD中的投影向量由实体和关系确定,对于TransR/CTransR模型,TransR/CTransR模型直接为每个关系定义了一个映射矩阵,TransD通过为每个实体和关系设置投影向量为每个三元组设置两个映射矩阵,同时由于TransD模型只涉及向量相乘,具有更小的计算复杂度。在单知识图谱上的嵌入方法在链接预测和知识图谱补全等方面取得了很好的效果,但是这些方法只能在一个知识图谱中进行单独的训练,无法捕获多个知识图谱之间的关联关系,因此不能直接用于实体对齐任务。受到知识表示学习的启发,研究人员提出了一系列基于知识嵌入的实体对齐方法,Hao等人[6]在2016年首先提出了一种联合嵌入知识库的方法JE,该方法同时考虑了实体嵌入损失和对齐向量的损失,实体嵌入的损失采用TransE的损失函数,对齐向量的损失分别采用对齐实体的距离作为对齐的损失函数||ei-e′i||以及通过转换矩阵M进行投影,损失函数为||Mdei-e′i||2,并约束所有嵌入向量的长度为1,基准方法采用预训练TransE向量,并根据TransE嵌入训练转换矩阵,基准方法的hits@1准确率达到了23.96%,,JE模型达到了29.73%的准确率,通过投影矩阵对齐的JEWP方法达到了29.88%。JE模型比较简单,Chen等人[7]在2017年提出了一种用于跨语言整合的知识嵌入模型MTransE,与JE模型相比,MTransE提出了多种知识图谱对准模型:基于距离的轴校准模型和翻译向量模型,基于距离的轴校准模型将损失函数定义为链接实体的对应头实体距离和对应尾实体距离之和,翻译向量模型分别通过翻译矢量和投影转换的方法链接两个知识图谱中的实体,并计算对应头实体距离与尾实体距离之和,最后将对齐损失和嵌入损失同时优化,实现了更好的性能;但是MTransE没有使用负采样三元组进行训练,因此可能导致非等价关系的实体彼此靠近。然而知识图谱中不仅包含关系三元组,还包含属性三元组;MTransE系列的方法仅利用关系三元组进行对齐的效果有限,同时利用关系三元组和属性三元组对齐是目前的研究热点。Sun等人[8]在2017年提出了一种融合了属性信息的JAPE模型,JAPE模型在处理跨语言实体对齐的任务中不依赖机器翻译,JAPE模型由结构嵌入SE和属性嵌入AE两部分组成,结构嵌入SE专注于对两个知识图谱的关系结构进行建模,属性嵌入AE捕获属性的相关性。JAPE考虑属性的类型而不是具体值,将属性三元组中的信息抽象为数字、浮点数、日期、字符串四种类型。A本文档来自技高网...

【技术保护点】
1.一种四险一金领域知识图谱中实体对齐方法,其特征在于,包括以下步骤:/n步骤1:输入源知识图谱S的关系三元组集合S

【技术特征摘要】
1.一种四险一金领域知识图谱中实体对齐方法,其特征在于,包括以下步骤:
步骤1:输入源知识图谱S的关系三元组集合S1和属性三元组集合S2,输入目标知识图谱T的关系三元组集合T1和属性三元组集合T2;
步骤2:标记源知识图谱S和目标知识图谱T间具有等价关系的实体,构建等价实体集合Sγ;所述的等价实体为:若源知识图谱S与目标知识图谱T中含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体,则将这一对实体视为等价实体;
步骤3:设定属性相似度阈值θ,运行属性筛选算法对源知识图谱S的属性三元组集合S2和目标知识图谱T的属性三元组集合T2进行筛选,得到筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset;
步骤4:为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据,得到源知识图谱S的负采样关系三元组集合S′1、源知识图谱S的负采样属性三元组集合S′2、目标知识图谱T的负采样关系三元组集合T1′、目标知识图谱T的负采样属性三元组集合T′2;
步骤5:利用TransE模型、LSTM网络、预训练BERT模型训练知识图谱实体的嵌入表示,生成实体嵌入向量;
步骤5.1:字嵌入向量训练;
将原始语料进行分句处理,并将每个句子分成字符序列;通过Word2Vec模型和Skip-Gram算法在四险一金领域语料上训练字符级的Word2Vec嵌入,为每一个字符训练长度为N1维度的向量表示;
步骤5.2:属性值编码生成;
对于属性三元组中的属性值,选取前N2个字符并保留,对于长度不足N2的属性值,使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示,获得属性值的嵌入矩阵,属性嵌入向量形状为N2*N1;
步骤5.3:知识图谱结构嵌入;
结构嵌入在待对齐的两个知识图谱的关系三元组上分别进行训练,结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化,并通过TransE模型和动态margin调节策略进行训练,模型的目标函数为:



f(sr)=||hr+rr-tr||
Sr'={<hr',rr,tr>|hr'∈Gr}∪{<hr,rr,tr'>|tr'∈Gr}
其中[x]+表示max(0,x),γ为边距超参数,Sr为知识图谱中存在的正例三元组,Sr'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组,Gr为Sr中的实体构成的集合,当输入为源知识图谱S的关系三元组时,Sr=S1,Sr'=S′1;当输入为目标知识图谱T的关系三元组时,Sr=T1,Sr'=T1′。γr为根据负三元组中关系动态学习的margin参数,随着模型的训练,γr将在不同的关系下进行自适应的调节使嵌入模型能够关注不同的关系,从而更好的捕获知识图谱的结构信息;
步骤5.4基于LSTM编码器的知识图谱属性嵌入:
属性嵌入部分由Embedding层和编码器两部分组成;属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中,并将最后一个时刻的隐状态作为属性值的嵌入表示;
步骤5.5:基于预训练BERT模型的知识图谱属性嵌入:
将属性值字符序列依次输入到预训练的BERT模型中,并将‘[CLS]’位置对应的输入作为属性值的嵌入表示,BERT模型作为实体对齐算法的特征提取层;将LSTM的隐状态和BERT嵌入向量进行加和平均,获得实体属性的嵌入表示;目标函数如下:



f(sa)=||ha+ra-Mfencoder(ta)||
Sa'={<ha,ra,ta'>|ta'∈Ga}
其中[x]+表示max(0,x),γ为边距超参数,Sa为知识图谱中存在的正例属性三元组,Sa'为通过对三元组的属性值进行随机替换生成用于训练的负三元组,Ga为Sa中的属性值构成的集合,当输入为源知识图谱S的属性三元组时,Sa=S2,Sa'=S2';当输入为目标知识图谱T的属性三元组时,Sr=T2,Sr'=T2'。γa为根据负三元组中属性动态学习的margin参数;fencoder为LSTM隐状态输出和BERT输出向量经加和平...

【专利技术属性】
技术研发人员:黄少滨何荣博申林山李熔盛
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1