一种基于嵌入表示的同源知识图谱的扩充方法技术

技术编号：32123701 阅读：21 留言：0更新日期：2022-01-29 19:10

本发明专利技术提供一种基于嵌入表示的同源知识图谱的扩充方法。所述基于嵌入表示的同源知识图谱的扩充方法，包括以下步骤：S1将原有知识图谱初始化为嵌入向量，并利用TransE模型训练生成最终的嵌入向量，如已存在嵌入向量表示，则不必重新生成；S2将新增知识图谱初始化为嵌入向量，对于其中与原有知识图谱中完全相同的关系，使新增图谱中的该关系向量固定为原有知识图谱中的向量表示。本发明专利技术提供的基于嵌入表示的同源知识图谱的扩充方法，仅对TransE模型训练后找到的候选三元组对进行字符相似度计算，既利用到了知识图谱中的结构信息，也充分考虑了文本信息，没有简单的利用结构信息或是文本信息，而是联合两种信息来进行匹配过滤。而是联合两种信息来进行匹配过滤。而是联合两种信息来进行匹配过滤。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于嵌入表示的同源知识图谱的扩充方法

[0001]本专利技术涉及知识图谱
，尤其涉及一种基于嵌入表示的同源知识图谱的扩充方法。

技术介绍

[0002]知识图谱作为一种是由实体和关系组成的语义网络，可以为自然语言处理提供数据支持，为人工智能技术赋能，是计算机认知科学的重要研究领域。当前，知识图谱被广泛用于搜索引擎、大数据决策分析、推荐系统等众多领域。但在实际应用场景中，知识图谱的构建还是依赖于人工对数据进行处理，构建成本较高，当知识图谱构建完毕后，实际上，后续会有对其内容进行扩充的需求，特别是对于金融、网安等每月甚至每天都有更新的知识的领域，如何利用计算机技术进行知识图谱的自动化扩充是一个比较困难的问题。
[0003]单个知识图谱可以表示为：G＝{E,R,T}，其中E为实体，R为关系，T为(头实体,关系,尾实体)三元组，平移模型(TransE)对于给定的三元组的向量表示(h,r,t)，将关系r看作从头实体h到尾实体t的平移向量，即其形式化的评分函数为：E(T)＝d(h+r,t)＝‖h+r
‑
t‖
L1/L2
，通过TransE模型训练可以将隐含语义关系有效编码进词向量。
[0004]利用TransE生成的向量表示，可以在一定程度上保留图谱中的结构信息，进而为知识图谱中实体的匹配提供帮助。而要对知识图谱进行有效扩充，首先要解决的问题就是去重的问题，新增知识图谱中可能有部分内容时与原始知识图谱中已有内容是高度雷同的，需要在扩充时，将其过滤掉，否则会造成信息冗余，使

【技术保护点】

【技术特征摘要】
1.一种基于嵌入表示的同源知识图谱的扩充方法，其特征在于，包括以下步骤：S1将原有知识图谱初始化为嵌入向量，并利用TransE模型训练生成最终的嵌入向量，如已存在嵌入向量表示，则不必重新生成；S2将新增知识图谱初始化为嵌入向量，对于其中与原有知识图谱中完全相同的关系，使新增图谱中的该关系向量固定为原有知识图谱中的向量表示，之后，同样利用TransE模型训练生成最终的嵌入向量；S3对新增知识图谱中的每个三元组生成的嵌入向量，计算其与原有知识图谱中嵌入向量的相似度评分，并根据评分排名，提取S个候选三元组，与新增图谱中在本步骤中选择的三元组组成S个三元组对；S4对于步骤S3生成的S个三元组对，利用N
‑
gram算法分别计算其字符嵌入向量，并计算相似度得分；S5联合TransE嵌入评分与字符相似度评分，设定阈值∈，如果联合评分大于阈值，则认定该三元组在原知识图谱中已存在，予以忽略，否则，将其加入原有知识图谱，达到扩充的效果。2.根据权利要求1所述的基于嵌入表示的同源知识图谱的扩充方法，其特征在于，所述步骤S1中对于原有知识图谱KG1采用Xavier初始化方法，使得初始化向量在每个维度上的取值范围为k为嵌入向量的维度，通常可取50～200，随后对于KG1中的三元组进行TransE模型训练，按照损失函数行TransE模型训练，按照损失函数的计算结果，迭代更新嵌入表示。3.根据权利要求2所述的基于嵌入表示的同源知识图谱的扩充方法，其特征在于，所述原有知识图谱KG1中的所有实体与关系，采用Xavier初始化方法，在均匀分布内随机采样随后，将图谱中的三元组进行TransE模型的训练，通过模型训练最小化损失函数，得到对应的嵌入向量(h
(1)
,r
(1)
,t
(1)
)。4.根据权利要求3所述的基于嵌入表示的同源知识图谱的扩充方法，其特征在于，所述步骤S2中对于新增知识图谱KG2也采用Xavier初始化方法，使得初始化向量在每个维度上的取值范围为由于KG1和KG2是同一来源的知识图谱，其中知识间的关系必然会存在相同的关系，为了使得新增知识图谱在向量空间的表示上与KG1尽可能的保持一致性，在初始化时，固定KG2中与KG1完全相同的关系的向量表示，即若r1＝r2，则使得关系向量r1＝r2，且这一向量在之后的训练中也固定不变，随后，与步骤S1类似地，对于KG2中的三元组进行TransE模型训练，迭代更新嵌入表示。5.根据权利要求4所述的基于嵌入表示的同源知识图谱的扩充方法，其特征在于，所述新增知识图谱KG2中的所有实体与关系，也采用Xav...

【专利技术属性】
技术研发人员：郑超，苏俊，蒋进，李默涵，顾钊铨，韩伟红，
申请(专利权)人：中电积至海南信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人