【技术实现步骤摘要】
基于多源异构数据的知识图谱构建方法、系统以及终端
本申请涉及一种数据处理
,特别是涉及一种基于多源异构数据的知识图谱构建方法、系统以及终端。
技术介绍
知识图谱是人工智能领域重要的组成之一,能够支持语义搜索、知识展现、自动问答等自然语言处理相关的多种任务;科技文献,作为科学研究、研发的成果产物,以专利、论文等相对规整的形式记录和保存下来。利用海量科技文献构建的知识图谱,包含有学术、
的大量知识结构,可用于提升语义搜索结果的精准度,制作科技类自动问答机器人,以及为科技型企业技术评价模型提供知识依据。但是,由于现有技术中构建的知识图谱并不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量。申请内容鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于多源异构数据的知识图谱构建方法、系统以及终端,用于解决现有技术中所构建的知识图谱不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量等问题。为实现上述目的及其他相关目的,本申请提供一种基于多源异构数据的知识图谱构建方法,包括:定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以 ...
【技术保护点】
1.一种基于多源异构数据的知识图谱构建方法,其特征在于,所述方法包括:/n定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;/n在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;/n基于内外部语义资源,对所述初始知识图谱进行优化处理;/n在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。/n
【技术特征摘要】
1.一种基于多源异构数据的知识图谱构建方法,其特征在于,所述方法包括:
定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;
在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;
基于内外部语义资源,对所述初始知识图谱进行优化处理;
在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。
2.根据权利要求1所述的基于多源异构数据的知识图谱构建方法,其特征在于,获得所述构建关系单位组群的方式包括:基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群;其中,所述多源异构数据源的类型包括:论文和专利;
和/或,
获得所述构建目标实体单位组群的方式包括:基于定义的目标实体,扩充各所述目标实体的统计相关数据,获得一或多种包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。
3.根据权利要求2所述的基于多源异构数据的知识图谱构建方法,其特征在于,所述根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群的方式包括:
根据多源异构数据源的不同类型,分别根据所述多源异构数据源中的目标实体特殊标识信息和/或借助自然语言处理工具来对所述多源异构数据源进行解析的方式分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。
4.根据权利要求2所述的基于多源异构数据的知识图谱构建方法,其特征在于,当构建关系单位组群为需挖掘组群时,该关系单位组群的构建方式包括:
基于词嵌入技术,在所述多源异构数据源中找出至少两个候补目标实体;
通过对所述多源异构数据源的各节点之间依存关系进行解析,获得所述候补目标实体间的初选关系;其中,所述节点包括:句子、词以及词组中的一种或多种;
基于预测模型,对获得所述候...
【专利技术属性】
技术研发人员:胡寅骏,殷玥,王茜,孙虎,郦苏菲,
申请(专利权)人:上海科技发展有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。