一种四险一金领域知识图谱中实体对齐方法技术

技术编号：26845664 阅读：24 留言：0更新日期：2020-12-25 13:07

本发明专利技术属于知识图谱技术领域，具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明专利技术提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略，通过增加嵌入层优化不同属性和关系条件下的TransE损失函数，将LSTM网络和Bert对属性值的嵌入结果进行融合，在属性值的嵌入中考虑了属性值的语义信息，并将结构嵌入和属性嵌入联合训练，最终获得知识图谱的联合嵌入表示。本发明专利技术将实体嵌入的语义信息与字符信息进行组合，将实体嵌入距离与LCS相似度进行组合，并在考虑两种相似度的条件下选择候选实体对。本发明专利技术可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种四险一金领域知识图谱中实体对齐方法
本专利技术属于知识图谱
，具体涉及一种四险一金领域知识图谱中实体对齐方法。
技术介绍
自Google在2012年提出知识图谱的概念开始，知识图谱发展迅速，出现了一批以DBpedia，Freebase，Wikidata，YAGO等为代表的大型知识图谱；但知识图谱的数据来源广泛、数据质量参差不齐，导致不同的知识图谱存在着多样性和异构性，不同知识图谱中存在着多个指向同一真实世界对象的不同实体，因此知识融合成为知识图谱研究中的一个重要环节。实体对齐作为知识融合中的关键技术，又被称为实体匹配，是推断来自不同知识图谱中不同实体是否映射到现实世界中同一个对象的技术。实体对齐主要包含数据预处理、分块、记录链接、结果评估、结果输出几个步骤。早期的实体对齐方法主要通过属性的字符相似度计算实体的属性相似度，并通过机器学习方法判断实体是否相似；属性相似度的计算方法主要包括编辑距离(LevenshteinDistance)、WagnerandFisher、Jaccard系数、TF-IDF等。基于字符相似度的实体对齐方法将实体对齐看作二分类问题，即根据属性三元组信息选择一对实体并根据属性相似性判断实体之间是否对齐。成对实体匹配方法通过实体属性相似性生成属性相似度向量，并通过机器学习方法进行判断；因此实体对齐任务需要标记对齐的实体作为分类器的训练集，实体对齐的性能依赖于对齐种子的数量。为了提高模型在少量对齐种子时的对齐效果，Ursin等人[1]在2019年提出了一种用于非结构化数据匹配...

【技术保护点】
1.一种四险一金领域知识图谱中实体对齐方法，其特征在于，包括以下步骤：/n步骤1：输入源知识图谱S的关系三元组集合S

【技术特征摘要】
1.一种四险一金领域知识图谱中实体对齐方法，其特征在于，包括以下步骤：
步骤1：输入源知识图谱S的关系三元组集合S1和属性三元组集合S2，输入目标知识图谱T的关系三元组集合T1和属性三元组集合T2；
步骤2：标记源知识图谱S和目标知识图谱T间具有等价关系的实体，构建等价实体集合Sγ；所述的等价实体为：若源知识图谱S与目标知识图谱T中含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体，则将这一对实体视为等价实体；
步骤3：设定属性相似度阈值θ，运行属性筛选算法对源知识图谱S的属性三元组集合S2和目标知识图谱T的属性三元组集合T2进行筛选，得到筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset；
步骤4：为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据，得到源知识图谱S的负采样关系三元组集合S′1、源知识图谱S的负采样属性三元组集合S′2、目标知识图谱T的负采样关系三元组集合T1′、目标知识图谱T的负采样属性三元组集合T′2；
步骤5：利用TransE模型、LSTM网络、预训练BERT模型训练知识图谱实体的嵌入表示，生成实体嵌入向量；
步骤5.1：字嵌入向量训练；
将原始语料进行分句处理，并将每个句子分成字符序列；通过Word2Vec模型和Skip-Gram算法在四险一金领域语料上训练字符级的Word2Vec嵌入，为每一个字符训练长度为N1维度的向量表示；
步骤5.2：属性值编码生成；
对于属性三元组中的属性值，选取前N2个字符并保留，对于长度不足N2的属性值，使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示，获得属性值的嵌入矩阵，属性嵌入向量形状为N2*N1；
步骤5.3：知识图谱结构嵌入；
结构嵌入在待对齐的两个知识图谱的关系三元组上分别进行训练，结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化，并通过TransE模型和动态margin调节策略进行训练，模型的目标函数为：

f(sr)＝||hr+rr-tr||
Sr'＝{<hr',rr,tr>|hr'∈Gr}∪{<hr,rr,tr'>|tr'∈Gr}
其中[x]+表示max(0,x)，γ为边距超参数，Sr为知识图谱中存在的正例三元组，Sr'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组，Gr为Sr中的实体构成的集合，当输入为源知识图谱S的关系三元组时，Sr＝S1，Sr'＝S′1；当输入为目标知识图谱T的关系三元组时，Sr＝T1，Sr'＝T1′。γr为根据负三元组中关系动态学习的margin参数，随着模型的训练，γr将在不同的关系下进行自适应的调节使嵌入模型能够关注不同的关系，从而更好的捕获知识图谱的结构信息；
步骤5.4基于LSTM编码器的知识图谱属性嵌入：
属性嵌入部分由Embedding层和编码器两部分组成；属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中，并将最后一个时刻的隐状态作为属性值的嵌入表示；
步骤5.5：基于预训练BERT模型的知识图谱属性嵌入：
将属性值字符序列依次输入到预训练的BERT模型中，并将‘[CLS]’位置对应的输入作为属性值的嵌入表示，BERT模型作为实体对齐算法的特征提取层；将LSTM的隐状态和BERT嵌入向量进行加和平均，获得实体属性的嵌入表示；目标函数如下：

f(sa)＝||ha+ra-Mfencoder(ta)||
Sa'＝{<ha,ra,ta'>|ta'∈Ga}
其中[x]+表示max(0,x)，γ为边距超参数，Sa为知识图谱中存在的正例属性三元组，Sa'为通过对三元组的属性值进行随机替换生成用于训练的负三元组，Ga为Sa中的属性值构成的集合，当输入为源知识图谱S的属性三元组时，Sa＝S2，Sa'＝S2'；当输入为目标知识图谱T的属性三元组时，Sr＝T2，Sr'＝T2'。γa为根据负三元组中属性动态学习的margin参数；fencoder为LSTM隐状态输出和BERT输出向量经加和平...

【专利技术属性】
技术研发人员：黄少滨，何荣博，申林山，李熔盛，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人