基于多源数据信息的知识图谱构建方法、设备及系统技术方案

技术编号:37855192 阅读:14 留言:0更新日期:2023-06-14 22:48
本发明专利技术公开了一种基于多源数据信息的知识图谱构建方法、设备及系统,属于人工智能技术领域,包括步骤:S1,数据获取;S2,信息抽取;S3,知识融合;S4,知识存储。本发明专利技术以在获取的多源数据信息中实体冗余繁杂、事件类型多样的情况下,提升了知识融合准确率,完成知识图谱的构建。的构建。的构建。

【技术实现步骤摘要】
基于多源数据信息的知识图谱构建方法、设备及系统


[0001]本专利技术涉及人工智能
,更为具体的,涉及一种基于多源数据信息的知识图谱构建方法、设备及系统。

技术介绍

[0002]知识图谱是指显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱结构化存储的特点使得其具有非常广阔的应用前景,随着知识图谱的兴起,数据库的存储方式进入了新的发展阶段。目标知识图谱已逐步被应用于搜索软件、电商软件等服务类软件中用于实现信息检索等,同时,还可应用于针对多种来源的复杂舆情信息的即时监测与报告生成等,并且能够带来巨大的经济价值。而知识图谱的构建作为知识图谱的重要步骤,需要不断地进行探索与实践。
[0003]关于知识图谱构建的研究,主要包括信息抽取、知识融合及知识加工等方面的研究,目前最大的知识图谱构建方面的障碍是机器在知识融合的实现中,准确率不高带来的知识图谱中冗余实体较多,增加数据存储所需资源。而知识图谱本身的特点被认为是下一代数据存储的重要方式,因此知识图谱构建也是人工智能中数据存储的重要研究领域。
[0004]由于知识图谱对数据存储应用的重要性,因此使得知识图谱构建方法的随着知识图谱的广泛推广过程中受到大量的关注。但是正因为多源数据中的实体存在冲突与歧义,因此构建的过程具有挑战性,知识图谱构建方法的进展都很慢。因而如何以更有效的方式将多源数据中的大量具有冲突与歧义的实体进行对齐,消岐等方式实现知识图谱的构建,提升实体消岐、实体对齐及指代消解的准确率,仍然是当前知识图谱构建过程中的难点问题。
[0005]近年来,知识融合方法从机器学习到深度学习在不断的进步,在性能与准确率上有着一定的准确率的提升。其中知识图谱构建过程中最重要的一步知识融合由实体对齐、实体消岐及指代消解构成。其中实体对齐方法分为两类,包括基于实例及其属性相似度的成对实体对齐以及在成对实体对齐基础上基于实例间相互关系的集体实体对齐;其中实体链接与消歧方法可以划分成基于机器学习的方法和基于深度学习的方法。
[0006]对于实体对齐而言:
[0007]传统基于实例及其属性相似度的实体对齐方法通常需要大量人工对数据进行标注或精心设计对齐特征。Yago3方法通过人工精心设计了对齐特征,使Wikipedia中的实体与已有YAGO中的实体实现对齐,并取得了较高的对齐准确率。Anguera等人手工去定义字母和音素之间的相似度。Tapaswi等人根据相同字符的外观定义视觉场景和句子之间的相似度来对齐电视节目和情节提要Bojanowski等人提出了一种类似于典型时间扭曲的方法,但也对其进行了扩展,利用现有的(弱)监督对齐数据进行模型训练。Plummer等人利用CCA找到了图像区域和短语之间的协调空间,用于对齐。基于网络语义标签的多源知识库实体对齐模型多种实体标签,实现中文实体对齐并取得了较高的准确率和召回率。基于实例及其
属性相似度的实体对齐方法直观简单、可以实现较高的实体对齐效果,但是这类传统实体对齐方法依赖于大量先验知识,使用人工进行数据标注会造成时间的大量浪费和高昂的劳动力成本,同时,设计出的实体特征往往扩展性较差,不具备普遍适用性。
[0008]基于实例间作用关系的集体实体对齐方法是在成对实体对齐方法的基础上综合考虑实例间作用关系以计算相似度。Zhuang等人运用机器学习的方法对领域知识库进行粗粒度对齐,然后通过推理模型推测问题的答案,最后借助容错算法获取实体对齐结果。余传明等人针对知识融合中存在数据冗余与不一致的问题,以知识图谱为视角,提出基于深度学习的领域知识对齐模型。该模型使用多源异构与跨语言数集进行计算实验,实验表明该模型改善了实体对齐的效果,提升了领域知识的正确率与覆盖率。
[0009]近些年,也有一些方法专注于在不同知识图谱中使用异源、异构知识进行实体对齐。通过概念标注实现多源实体对齐的方法利用概念注释来丰富知识图谱中的内部链接,迭代预测新的多源知识对,使用这种迭代对齐的方法虽然可以达到较高的准确率,但常常需要消耗大量的训练时间。孔等人训练了一个马尔科夫随机场,将三维场景中的物体与文本描述中的名词和代词对齐。毛等人使用一个长短时记忆语言模型和一个卷积神经网络视觉模型来评估参考表达和图像中物体之间的匹配质量。朱等人通过训练一个卷积神经网络来测量场景和文本之间的相似性,将书籍与相应的电影/剧本进行对齐。于等人将这一模型扩展到包括相对外观和上下文信息,从而可以更好地在同一类型的物体之间消除歧义。胡等人使用一个基于长短时记忆网络的评分函数来寻找图像区域和它们的描述之间的相似性。随着知识表示学习方法的提出,MTransE方法直接使用已知的知识三元组实现英语

法语的多语言知识对齐。IPTransE方法使用共享参数实现知识嵌入,并使用一种软规则的方法实现实体对齐。HolisticEM方法只使用知识图谱中的结构化信息实现三元组知识的向量化表示,并迭代地实现多源实体对齐。JAPE方法在统一的语义空间中学习实体的嵌入以及不同知识图谱之间的关系。
[0010]对于实体链接与消歧方法而言:
[0011]在基于机器学习的方法中,实体消歧的核心是计算给定实体与待消歧实体之间的相似程度,在此基础上选择相似程度最大的实体作为目标实体。Milne等利用实体统计信息、名字统计信息进行目标实体消歧。韩等利用百科数据作为背景知识,通过百科知识辅助消歧。纪等提出了一种全局推理算法,以考虑文本中实体之间的相互关系来找到全局最优决策。另外,为解决语料标注问题,近年来已经开始研究高效的弱监督或无监督策略。申等对实体流行度、语义关联度等特征进行特征组合,利用最大间隔算法计算各个特征的权重,利用排序算法实现实体消歧。此外,Agichtein等提出的半监督算法、Etzioni等提出的远距离监督算法以及石等提出的基于海量数据冗余性的自学习方法也从一定程度上解决语料标注的问题。
[0012]传统的有监督机器学习算法需要大量的标注语料,本项目现有的标注语料难以满足实体消歧的需求。在基于深度学习的方法中,实体消歧的实质是构建三元组的统一表示,并对多源信息、多源文本之间的联系进行建模。深度学习方法通过将不同类型的信息映射到同一特征空间,并提出了高效的端到端训练算法,给上述任务提供了强有力的工具。Francis等在原有的神经网络语言模型的基础上,加入了卷积神经网络模型,较大程度上改进了实体消歧的效果。Ganea等提出多源异构证据的向量表示学习方法,对不同来源知识库
中的知识进行统一空间的表示,进而完成实体消歧。Sil等提出对证据信息进行向量表示,基于表示向量学习不同证据之间的相似度,继而进行相似度融合,最终完成实体消歧。毛二松等人提出使用Skip

Gram模型进行词向量训练,并利用词向量进行相似度计算,实现实体链接与消歧。怀宝兴等人提出将消歧实体和待消歧实体上下文语境映射到同一个空间,基于概率空间模型,根据实体的空间向量进行消歧。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源数据信息的知识图谱构建方法,其特征在于,包括以下步骤:S1,数据获取;S2,信息抽取;S3,知识融合,将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,包括指代消解、实体消歧、实体对齐;其中,指代消解用于针对指代不明的情况,不同地方出现的代词到底指向前文中出现过的哪个实体的情况采用Span BERT模型进行处理;利用实体消歧针对一词多义现象,根据当前的语境,联系上下文信息,准确找到对应实体,建立实体链接;利用实体对齐针对多个实体具有不同的名称,但实际是同一种事物,会出现实体的重复和冗余的情况,利用Levenshtein距离和jacard距离来进行实体对齐,相似度大于某设定的阈值则判断为相似实体;S4,知识存储。2.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S1中,所述数据获取,包括子步骤:S11,判断网页是静态网页还是动态网页,静态网页全部的内容都在源代码中,而动态网页则不全是;S12,在区分好网页类型后,判断网页请求方式,分为

get



post

两种方式;判断选取针对不同网页类型的相应爬虫算法获取数据;将获取到的数据,通过python文件存储代码,将获取到的文本,图像,视频数据进行存储,初步建立数据库;S13,通过Python中的re库来进行正则表达式的书写,通过标点符号作为正则表达式判断依据进行分句操作。3.根据权利要求1所述的基于多源数据信息的知识图谱构建方法,其特征在于,在步骤S2中,所述信息抽取,包括子步骤:使用N

Gram模型来进行信息抽取,通过检测文本中报告的事件是否存在,如果存在则从自然语言文本中进行事件元素的抽取,构造事件三元组的成词词性模板,最后以结构化的方式展现出来。4.根据权利要求1所述的基于多源数据信息的...

【专利技术属性】
技术研发人员:王侃宋丹刘万里孙文刘禄波吴超蓉刘鑫韩迎萍李晨雨谷裕王媛媛王爽
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1