一种多源异构的知识图谱构建方法及系统技术方案

技术编号:34393860 阅读:26 留言:0更新日期:2022-08-03 21:25
本发明专利技术公开了一种多源异构的知识图谱构建方法及系统,其包括数据获取模块、知识抽取模块、知识融合模块及知识图谱模块;其中,所述知识抽取模块,用于从所述数据获取模块获取的数据信息抽取出的实体数据;所述知识融合模块,用于将所述知识抽取模块抽取出的实体数据融合到本体模式,并基于知识匹配融合规则,利用融合脚本将植物品种融合并生成标准化格式的数据;所述知识图谱模块,用于获得新的数据化结构生成对应的知识图谱,并将知识图谱进行存储。发明专利技术的方法及系统方便对植物知识进行录入以结合现在知识生成新的知识图谱,从而方便对知识的传播和交流。对知识的传播和交流。对知识的传播和交流。

【技术实现步骤摘要】
一种多源异构的知识图谱构建方法及系统


[0001]本专利技术涉及知识图谱
,具体为一种多源异构的知识图谱构建方法及系统。

技术介绍

[0002]知识图谱(KnowledgeGraph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。在大数据时代背景下,各行各业都包含着海量的数据以及多个数据源融合交叉应用,植物知识领域也不例外,既有历史流传的原始物种,也有不同时期的品种繁衍。传统的数据管理以及展示模式并不能让广大更好的学习和认识植物知识体系。

技术实现思路

[0003]本专利技术的目的在于提供一种多源异构的知识图谱构建方法及系统,以解决现有技术中存在的问题。
[0004]为实现上述目的,本专利技术采用的技术方案是:提供一种多源异构的知识图谱构建系统,种多源异构的知识图谱构建系统,其包括数据获取模块、知识抽取模块、知识融合模块及知识图谱生成模块,所述数据获取模块,基于采集配置项和解析规则从图书馆、博物馆、互联网采集结构化和非结构化的原始文献数据,原始的结构化数据包括标本样品格式数据和非结构化数据包括文本格式、视频格式及图片格式数据;所述知识抽取模块,用于从所述数据获取模块获取的数据信息抽取出的实体数据;所述知识融合模块,用于将所述知识抽取模块抽取出的实体数据融合到本体模式,并基于知识匹配融合规则,利用融合脚本将植物品种融合并生成标准化格式的数据;所述知识图谱模块,用于获得新的数据化结构生成对应的知识图谱,并将知识图谱进行存储。
[0005]优选的,在本技术方案中,所述知识抽取模块包括概念分割单元和分类分析单元;所述概念分割单元利用SATI软件统计得出文献电子数据库关于植物品种的关键词,再通过Ucinet软件,采用NetDraw工具进行高频关键词共现网络分析,从中揭示出不同关键词之间的相互联系,找出紧密相连的关键词,根据关键词进行物种属性分割,而后输入至所述分类分析单元;所述分类分析单元先将关键测相异矩阵导入SPSS利川多维J度分分析。
[0006]优选的,在本技术方案中,数据获取模块的数据获取来源至少包括文献电子数据
库、网络视频及网络图库。
[0007]优选的,在本技术方案中,所述知识融合模块包括实体消歧单元、实体对齐单元及知识合并单元。
[0008]优选的,在本技术方案中,所述实体消歧单元,用于解决同名实体歧义问题,基于维基百科作为背景知识,以衡量实体间的相似性。
[0009]优选的,在本技术方案中,所述实体对齐单元,用于解决同义异名的问题,可基于候选实体生成器、选择器和清理器的全自动的实体对齐框架,利用使用者的查询信息及查询后的点击记录,计算出实体间的相似度,完成实体对齐。
[0010]优选的,在本技术方案中,所述知识合并单元,是在知识图谱层面上进行知识融合,利用现有的知识库来扩大知识图谱的规模,丰富其中的知识。
[0011]优选的,在本技术方案中,还包括知识加工单元,用于将知识抽取模块从网络视频、抽取出的实体数据信息,在实体识别单元中按照植物科属进行识别,将识别结果输入到实体关系构建单元按照实体关系进行融合,生成新的数据化结构,再送至本体单元中,后利用关系模板对实体之间关系进行构建并生成相应的知识,再输入所述知识融合模块,或者直接输入至所述知识图谱模块。
[0012]本专利技术的第二目的在于提供一种多源异构的知识图谱构建构建方法,包括如下步骤:S100,从文献电子数据库、网络视频、网络图库获取实体信息,形成知识数据源;S200,根据实体的不同类别按照预设识别方式从所述网络安全领域数据集中的非结构化数据集中识别与植物品种知识本体定义的实体相匹配的实体,其中非结构化数据集中的数据为文本数据、视频数据、图片数据;S300,将文本数据、视频数据、图片数据输入概念分割单元中,从非结构化数据集中获得的各实体的词向量;再输入到分类分析单元中,以获取植物属性;S400,根据从非结构化数据集中获取的实体属性,选择相同属性最多的数据集知识融合模块中,在实体消歧单元、实体对齐单元及知识合并单元进行结构化融合;S500,根据结构化构建在知识图谱模块中生成知识图谱。
[0013]本专利技术的第三目的在于提供一种多源异构的知识图谱构建构建方法,包括如下步骤:S110,从网络视频、网络图库获取实体信息,形成知识数据源;S210,根据实体的不同类别按照预设识别方式从所述网络安全领域数据集中的非结构化数据集中识别与植物品种知识本体定义的实体相匹配的实体,其中非结构化数据集中的数据为视频数据、图片数据;S310,将视频数据、图片数据输入概念分割单元中,从非结构化数据集中获得的各实体的形状、色彩;再输入到分类分析单元中按形状、色彩进行分类;S410,将分类结果输入实体识别单元中,获取的实体特征属性,选择相同特征属性最多的数据集输入到实体关系构建单元中,后再本体单元中加工、融合;S510,在知识图谱模块中生成知识图谱。
[0014]与现有技术对比,本专利技术具备以下有益效果:本专利技术通过数据获取模块获取数据源,经过知识抽取模块分割、分类分析后在知识融合模块和知识加工模块中进行关系相互联结,构成网状的知识结构,方便对植物知识
进行录入以结合现在知识生成新的知识图谱,从而方便对知识的传播和交流。
附图说明
[0015]图1为本专利技术的第一种构建系统的框架图;图2为本专利技术的第二种构建系统的框架图一;图3为本专利技术的第二种构建系统的框架图二;图4为本专利技术的数据获取模块的架构图;图5为本专利技术的构建方法一的流程图;图6为本专利技术的构建方法二的流程图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]请参看图1,一种多源异构的知识图谱构建系统,其包括数据获取模块10、知识抽取模块20、知识融合模块30及知识图谱模块50。也可以是如2所述,一种多源异构的知识图谱构建系统,其包括数据获取模块10、知识抽取模块20、知识融合模块30及知识图谱模块50知识加工模块40。
[0018]进一步的,如图3所示,数据获取模块10,基于采集配置项和解析规则从图书馆、博物馆、互联网等采集结构化和非结构化的原始文献数据,原始的结构化数据包括标本样品格式数据和非结构化数据包括文本格式、视频格式及图片格式数据。优选在,在本实施例中,数据获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源异构的知识图谱构建系统,其包括数据获取模块、知识抽取模块、知识融合模块及知识图谱模块,其特征在于,所述数据获取模块,基于采集配置项和解析规则从图书馆、博物馆、互联网采集结构化和非结构化的原始文献数据,原始的结构化数据包括标本样品格式数据和非结构化数据包括文本格式、视频格式及图片格式数据;所述知识抽取模块,用于从所述数据获取模块获取的数据信息抽取出的实体数据;所述知识融合模块,用于将所述知识抽取模块抽取出的实体数据融合到本体模式,并基于知识匹配融合规则,利用融合脚本将植物品种融合并生成标准化格式的数据;所述知识图谱模块,用于获得新的数据化结构生成对应的知识图谱,并将知识图谱进行存储。2.根据权利要求1所述的多源异构的知识图谱构建系统,其特征在于,所述知识抽取模块包括概念分割单元和分类分析单元;所述概念分割单元利用SATI软件统计得出文献电子数据库关于植物品种的关键词,再通过Ucinet软件,采用NetDraw工具进行高频关键词共现网络分析,从中揭示出不同关键词之间的相互联系,找出紧密相连的关键词,根据关键词进行物种属性分割,而后输入至所述分类分析单元;所述分类分析单元先将关键测相异矩阵导入SPSS利川多维J度分析。3.根据权利要求1所述的多源异构的知识图谱构建系统,其特征在于,数据获取模的数据获取来源至少包括文献电子数据库、网络视频及网络图库。4.根据权利要求1所述的多源异构的知识图谱构建系统,其特征在于,所述知识融合模块包括实体消歧单元、实体对齐单元及知识合并单元。5.根据权利要求4所述的多源异构的知识图谱构建系统,其特征在于,所述实体消歧单元,用于解决同名实体歧义问题,同时基于维基百科作为背景知识,来衡量实体间的相似性。6.根据权利要求4所述的多源异构的知识图谱构建系统,其特征在于,所述实体对齐单元,用于解决同义异名的问题,可基于候选实体生成器、选择器和清理器的全自动的实体对齐框架,利用使用者的查询信息及查询后的点击记录,计算出实体间的相似度,完成实体对齐。7.根据权利要求4所述的多源异构的知识图谱构建系统,其特征在于,所述知识合并单元,是在知识图谱层面上进行知识融合,利用现...

【专利技术属性】
技术研发人员:张伟郝爽臧利利羊晋赵鲲驰刘光远孙真真马凤春
申请(专利权)人:山东省科院易达科技咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1