基于多源异构数据的知识图谱构建方法、系统以及终端技术方案

技术编号:29401175 阅读:15 留言:0更新日期:2021-07-23 22:38
本申请提供一种基于多源异构数据的知识图谱构建方法、系统以及终端,包括:定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;基于内外部语义资源,对所述初始知识图谱进行优化处理;在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。本发明专利技术不仅大幅度减轻后期人工处理知识图谱的工作量,并抽取可信度较高的目标实体和关系作为知识图谱的基地,还实现了知识图谱的统一存储和统一管理。

【技术实现步骤摘要】
基于多源异构数据的知识图谱构建方法、系统以及终端
本申请涉及一种数据处理
,特别是涉及一种基于多源异构数据的知识图谱构建方法、系统以及终端。
技术介绍
知识图谱是人工智能领域重要的组成之一,能够支持语义搜索、知识展现、自动问答等自然语言处理相关的多种任务;科技文献,作为科学研究、研发的成果产物,以专利、论文等相对规整的形式记录和保存下来。利用海量科技文献构建的知识图谱,包含有学术、
的大量知识结构,可用于提升语义搜索结果的精准度,制作科技类自动问答机器人,以及为科技型企业技术评价模型提供知识依据。但是,由于现有技术中构建的知识图谱并不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量。申请内容鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于多源异构数据的知识图谱构建方法、系统以及终端,用于解决现有技术中所构建的知识图谱不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量等问题。为实现上述目的及其他相关目的,本申请提供一种基于多源异构数据的知识图谱构建方法,包括:定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;基于内外部语义资源,对所述初始知识图谱进行优化处理;在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。于本申请的一实施例中,所述获得所述构建关系单位组群的方式包括:基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群;其中,所述多源异构数据源的类型包括:论文和专利;和/或,所述获得所述构建目标实体单位组群的方式包括:基于定义的目标实体,扩充各所述目标实体的统计相关数据,获得一或多种包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。于本申请的一实施例中,所述根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群的方式包括:根据多源异构数据源的不同类型,分别根据所述多源异构数据源中的目标实体特殊标识信息和/或借助自然语言处理工具来对所述多源异构数据源进行解析的方式分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。于本申请的一实施例中,当构建关系单位组群为需挖掘组群时,该关系单位组群的构建方式包括:基于词嵌入技术,在所述多源异构数据源中找出至少两个候补目标实体;通过对所述多源异构数据源的各节点之间依存关系进行解析,获得所述候补目标实体间的初选关系;其中,所述节点包括:句子、词以及词组中的一种或多种;基于预测模型,对获得所述候补目标实体间的初选关系进行判定,以获得所述候补目标实体间的关系。于本申请的一实施例中,所述基于内外部语义资源,对所述初始知识图谱进行优化处理的方式包括:基于内外部语义资源,对所述初始知识图谱进行补充、格式统一以及消岐处理中的一种或多种。于本申请的一实施例中,所述在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱的方式包括:在获得的各构建单位组群中筛选一或多个在频率阈值范围内出现的构建单位组群作为最优目标实体组群,对经过优化处理的知识图谱中的数据进行筛选,以获得最终的知识图谱。于本申请的一实施例中,所述目标实体的类型包括:机构、人才、技术关键词、学科、
、以及地址中的一种或多种。于本申请的一实施例中,各目标实体之间所构成的关系的类型包括:隶属关系、上位关系、下位关系、竞争关系、合作关系、关联关系、研究关系以及位置对应关系中的一种或多种。为实现上述目的及其他相关目的,本申请提供一种基于多源异构数据的知识图谱构建系统,包括:定义模块,用于定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;抽取模块,连接所述定义模块,用于在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;优化模块,连接所述抽取模块,用于基于内外部语义资源,对所述初始知识图谱进行优化处理;筛选模块,连接所述优化模块,用于在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。为实现上述目的及其他相关目的,本申请提供一种基于多源异构数据的知识图谱构建终端,包括:存储器,用于存储计算机程序;处理器,运行所述计算机程序,以执行所述基于多源异构数据的知识图谱构建方法。如上所述,本申请的基于多源异构数据的知识图谱构建方法、系统以及终端,具有以下有益效果:通过定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系自动化地进行抽取来构建知识图谱,不仅大幅度减轻后期人工处理知识图谱的工作量,并抽取可信度较高的目标实体和关系作为知识图谱的基地,还实现了知识图谱的统一存储和统一管理。附图说明图1显示为本申请一实施例中的基于多源异构数据的知识图谱构建方法的流程示意图。图2显示为本申请一实施例中的基于多源异构数据的知识图谱构建系统的结构示意图。图3显示为本申请一实施例中的基于多源异构数据的知识图谱构建终端的结构示意图。具体实施方式以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于本文档来自技高网
...

【技术保护点】
1.一种基于多源异构数据的知识图谱构建方法,其特征在于,所述方法包括:/n定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;/n在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;/n基于内外部语义资源,对所述初始知识图谱进行优化处理;/n在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。/n

【技术特征摘要】
1.一种基于多源异构数据的知识图谱构建方法,其特征在于,所述方法包括:
定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;
在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;
基于内外部语义资源,对所述初始知识图谱进行优化处理;
在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。


2.根据权利要求1所述的基于多源异构数据的知识图谱构建方法,其特征在于,获得所述构建关系单位组群的方式包括:基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群;其中,所述多源异构数据源的类型包括:论文和专利;
和/或,
获得所述构建目标实体单位组群的方式包括:基于定义的目标实体,扩充各所述目标实体的统计相关数据,获得一或多种包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。


3.根据权利要求2所述的基于多源异构数据的知识图谱构建方法,其特征在于,所述根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群的方式包括:
根据多源异构数据源的不同类型,分别根据所述多源异构数据源中的目标实体特殊标识信息和/或借助自然语言处理工具来对所述多源异构数据源进行解析的方式分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。


4.根据权利要求2所述的基于多源异构数据的知识图谱构建方法,其特征在于,当构建关系单位组群为需挖掘组群时,该关系单位组群的构建方式包括:
基于词嵌入技术,在所述多源异构数据源中找出至少两个候补目标实体;
通过对所述多源异构数据源的各节点之间依存关系进行解析,获得所述候补目标实体间的初选关系;其中,所述节点包括:句子、词以及词组中的一种或多种;
基于预测模型,对获得所述候...

【专利技术属性】
技术研发人员:胡寅骏殷玥王茜孙虎郦苏菲
申请(专利权)人:上海科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1