一种基于非结构化信息的知识图谱补全方法及系统技术方案

技术编号:31917732 阅读:13 留言:0更新日期:2022-01-15 13:00
本发明专利技术提供了一种基于非结构化信息的知识图谱补全方法及系统,识别缺失三元组数据中的实体节点;获取与实体节点相关联的句子,识别句子中的实体三元组,同时将得到的句子输入到生成器中生成自由文本数据;结合自由文本数据和结构化文本数据进行生成器的训练,判别器根据句子中的实体三元组对生成器的实体三元组预测结果进行判别,进行生成器与判别器的对抗训练;当辨别器辨别通过时,将句子中的实体三元组添加到知识图谱中,利用图神经网络进行评分,结合评分结果和缺失三元组的已知实体节点的前一个节点信息,得到实体三元组的排名结果,完成知识图谱的补全;本发明专利技术提高了知识图谱补全的效率和准确度。谱补全的效率和准确度。谱补全的效率和准确度。

【技术实现步骤摘要】
一种基于非结构化信息的知识图谱补全方法及系统


[0001]本专利技术涉及知识图谱补全处理
,特别涉及一种基于非结构化信息的知识图谱补全方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]知识图谱的本质是一种语义网,并且最近几年知识图谱发展迅速并且在实际生活中有很广泛的应用,比如基于DBpedia,YAGO,Freebase等大型知识库的事实问答系统等。但是在实际生活中的知识总是一环接着一环,所以很多知识是原来的知识库所没有的,也可以说是不完整的,所以知识图谱补全任务就慢慢的被人们所关注。一般来说,知识图谱是由三部分组成的:头实体、关系实体和尾实体(h,r,t),而知识图谱补全就是当知道关系实体和头尾其中一个实体的时候,然后根据一定的关系或者信息去补全另一个实体。
[0004]现在很多的项目或者文本中都会包含很多知识库中的实体,并且真实世界中的一些文本是包含很多信息的,如何有效的利用起来这些信息,以及如何用这些非结构化的信息完成知识图谱补全任务,是目前研究的重点和热点。
[0005]专利技术人发现,如果单纯的只是把收集到的一些非结构数据和一些结构化数据放到一起,那么可能对知识图谱补全任务没有什么帮助,反而可能会增加数据噪音使其训练精度下降,所以把互联网中的一些自由文本拿来直接和一些结构化数据进行融合是不可行的;并且在互联网中,有很多包含需要的目标实体的自由文本不是很多,或者其本身的结构化数据就不是很多,是比较稀疏的,导致知识图谱的补全较为困难。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术提供了一种基于非结构化信息的知识图谱补全方法及系统,利用图神经网络和对抗神经网络相互合作来完成知识图谱补全任务,提高了知识图谱补全的效率和准确度。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]本专利技术第一方面提供了一种基于非结构化信息的知识图谱补全方法。
[0009]一种基于非结构化信息的知识图谱补全方法,包括:
[0010]获取待补全的缺失三元组数据;
[0011]识别缺失三元组数据中的实体节点;
[0012]获取与实体节点相关联的句子,识别句子中的实体三元组,同时将得到的句子输入到生成器中生成自由文本数据;
[0013]结合自由文本数据和结构化文本数据进行生成器的训练,判别器根据句子中的实体三元组对生成器的实体三元组预测结果进行判别,进行生成器与判别器的对抗训练;
[0014]当辨别器辨别通过时,将句子中的实体三元组添加到知识图谱中,利用图神经网络进行评分,结合评分结果和缺失三元组的已知实体节点的前一个节点信息,得到实体三
元组的排名结果,完成知识图谱的补全。
[0015]本专利技术第二方面提供了一种基于非结构化信息的知识图谱补全系统。
[0016]一种基于非结构化信息的知识图谱补全系统,包括:
[0017]数据获取模块,被配置为:获取待补全的缺失三元组数据;
[0018]实体节点识别模块,被配置为:识别缺失三元组数据中的实体节点;
[0019]句子采集模块,被配置为:获取与实体节点相关联的句子,识别句子中的实体三元组,同时将得到的句子输入到生成器中生成自由文本数据;
[0020]对抗训练模块,被配置为:结合自由文本数据和结构化文本数据进行生成器的训练,判别器根据句子中的实体三元组对生成器的实体三元组预测结果进行判别,进行生成器与判别器的对抗训练;
[0021]知识图谱补全模块,被配置为:当辨别器辨别通过时,将句子中的实体三元组添加到知识图谱中,利用图神经网络进行评分,结合评分结果和缺失三元组的已知实体节点的前一个节点信息,得到实体三元组的排名结果,完成知识图谱的补全。
[0022]本专利技术第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本专利技术第一方面所述的基于非结构化信息的知识图谱补全方法中的步骤。
[0023]本专利技术第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本专利技术第一方面所述的基于非结构化信息的知识图谱补全方法中的步骤。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]1、本专利技术创新性的提出了一种基于非结构化信息的知识图谱补全方法及系统,利用图神经网络和对抗神经网络相互合作来完成知识图谱补全任务,提高了知识图谱补全的效率和准确度。
[0026]2、本专利技术创新性的提出了一种基于非结构化信息的知识图谱补全方法及系统,通过剪枝处理,提高了计算效率,通过二次验证,提高了实体节点评分的准确性。
[0027]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0028]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0029]图1为本专利技术实施例1提供的基于非结构化信息的知识图谱补全方法的流程示意图。
[0030]图2为本专利技术实施例1提供的模型在不同的稀疏自由文本数据集中随着epoch的增加精度的变化示意图。
具体实施方式
[0031]下面结合附图与实施例对本专利技术作进一步说明。
[0032]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另
有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0034]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0035]实施例1:
[0036]本专利技术实施例1提供了一种基于非结构化信息的知识图谱补全方法,利用对抗神经网络和图神经网络相互合作来完成最终的知识图谱补全任务。
[0037]如
技术介绍
所述,目前,有很多数据是和知识图谱的数据不一样的,但是在互联网中有很多的自由文本都存贮着大量的信息,不光能帮助人脑做出准确的判断,如果善加利用,更能帮助机器作出一些判断,比如说知识图谱的补全,但是如果直接把这种自由文本放入知识图谱补全任务中的数据集中,极大可能毫无帮助,甚至可能会增加一定数量的噪声,本实施例考虑到各种数据都存在着异构性等特点,设计了一种对抗学习和图神经网络协同的算法利用自有文本来完成知识图谱补全任务。
[0038]在这个模型中,为知识图谱补全任务设置了几个有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于非结构化信息的知识图谱补全方法,其特征在于:包括:获取待补全的缺失三元组数据;识别缺失三元组数据中的实体节点;获取与实体节点相关联的句子,识别句子中的实体三元组,同时将得到的句子输入到生成器中生成自由文本数据;结合自由文本数据和结构化文本数据进行生成器的训练,判别器根据句子中的实体三元组对生成器的实体三元组预测结果进行判别,进行生成器与判别器的对抗训练;当辨别器辨别通过时,将句子中的实体三元组添加到知识图谱中,利用图神经网络进行评分,结合评分结果和缺失三元组的已知实体节点的前一个节点信息,得到实体三元组的排名结果,完成知识图谱的补全。2.如权利要求1所述的基于非结构化信息的知识图谱补全方法,其特征在于:获取与实体节点相关联的句子,当缺失三元组数据包括第一实体和实体关系且缺失第二实体时,所述句子包括:非结构化文本中第一实体出现的页面上包含实体关系的句子;非结构化文本中实体关系出现的页面上包含第一实体的句子;非结构化文本页面中同时出现包含第一实体和实体关系的句子。3.如权利要求2所述的基于非结构化信息的知识图谱补全方法,其特征在于:根据在网页上收集三种类型的句子,根据实体在各个页面的出现次数,进行实体节点的二次验证。4.如权利要求3所述的基于非结构化信息的知识图谱补全方法,其特征在于:根据二次验证后的结果,得到实体节点的相关性评分,对得到的实体节点进行剪枝处理,按照评分从大到小的顺序保留预设个数的实体节点。5.如权利要求1所述的基于非结构化信息的知识图谱补全方法,其特征在于:每个候选实体节点包括知识图谱中的前一层的节点信息以及自由文本中的信息。6.如权利要求1所述的基于非结构...

【专利技术属性】
技术研发人员:史玉良吕梁纪风坡管永明张晖刘智勇
申请(专利权)人:山大地纬软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1