一种基于描述定义的知识图谱自动构建方法及系统技术方案

技术编号:21771732 阅读:30 留言:0更新日期:2019-08-03 21:34
本发明专利技术公开了一种基于描述定义的知识图谱自动构建方法及系统,包括:定义领域知识描述文件,及对应的数据映射描述文件;基于所述领域知识描述文件生成以RDF三元组表示的知识体系,并将所述知识体系保存至三元组存储数据库中;基于所述数据映射描述文件将指定数据源的数据自动提取成知识实例,并将所述知识实例以属性图的形式保存至图数据库中;构建知识概念至所述知识实体的三元组,并将其存储至所述知识体系中。本发明专利技术生成的知识图谱,即保留三元组的语义及逻辑推理的能力又可以利用属性图数据库高效的图计算能力,对知识图谱的进一步应用打下坚实基础。

A Method and System for Automatic Construction of Knowledge Map Based on Description Definition

【技术实现步骤摘要】
一种基于描述定义的知识图谱自动构建方法及系统
本专利技术涉及计算机
,具体涉及一种基于描述定义的知识图谱自动构建方法及系统。
技术介绍
知识图谱应用的首要任务是知识图谱的构建,知识图谱的构建主要有两个任务,一是将现有的知识转换为某种知识表示结构,二是将转换后的知识表示存储到某种数据库中,目前业界对这两个任务都有各自的解决方法。RDF(ResourceDescriptionFramework)是业界最常用的知识表示方法,它采用三元组形式描述一则知识,基于RDF构建的语义网(SemanticWeb)提供了标准的跨域信息共享方法以及诸如语义推理等语义级功能。同时,三元组存储(triplestore)在业界也有众多开源及商业级的实现。此外,由于三元组具有图的特性,利用现有的图计算技术可打造各种高效的知识应用方案,支持高效图存储与图计算的图数据库的目前业界的研究热点,也已经有众多的实现。但在实际应用中发现,虽然三元组存储方案可以从图的角度进行处理,但由于每个三元组都生成图中的一条边和两个节点,导致整个图非常庞大且无明确的拓扑结构,以至于三元组存储方案通常都无法提供高效的图计算功能。而以属性图为中心设计的图数据库,由于其每个节点都包含了一组紧密相关属性,因此其图的拓扑结构非常明确,适合应用高效的图计算方法,但是以这种结构进行三元组存储的话,又将回落至三元组存储的图表示困境,因此图数据库通常没有高效的三元组存储方案,更极少提供语义能力的支持。上述两个主要问题成为了知识图谱开发人员的主要挑战,当知识图谱以纯三元组形式表示并存储时,除了容易陷入表示爆炸(当每一个属性信息以三元组形式描述时,其占用的空间将激增)的问题外,也无法有效利用图计算技术。而完全采用图数据库方式存储时,又失去了三元组表示强大的语义表达能力。目前,知识图谱的开发人员只能自行在两种技术之间寻找应用平衡点。最后,考虑到领域业务专家才是最熟悉与了解领域内知识的群体,而上述知识图谱构建方法的一些部分过于技术化、工程化,因此我们还需要寻找一种适合领域业务专家进行知识图谱构建的方案。
技术实现思路
针对上述问题,本专利技术提供一种基于描述定义的知识图谱自动构建方法及系统,给定领域知识定义描述文件及对应的数据映射描述文件,系统基于知识描述文件自动生成以RDF三元组表示的知识(概念)体系保存至三元组存储数据库中,并基于数据映射描述文件,将指定数据源的数据自动提取成(知识)概念的实例并以属性图的形式保存至图数据库中,并同时构造概念至实体的三元组存入知识体系的三元组存储中。由此生成的知识图谱,即保留三元组的语义及逻辑推理的能力又可以利用属性图数据库高效的图计算能力,对知识图谱的进一步应用打下坚实基础。具体
技术实现思路
为:一种基于描述定义的知识图谱自动构建方法,包括:定义领域知识描述文件,及对应的数据映射描述文件;基于所述领域知识描述文件生成以RDF三元组表示的知识体系,并将所述知识体系保存至三元组存储数据库中;基于所述数据映射描述文件将指定数据源的数据自动提取成知识实例,并将所述知识实例以属性图的形式保存至图数据库中;构建知识概念至所述知识实体的三元组,并将其存储至所述知识体系中。进一步地,所述领域知识描述文件的定义过程包括:获取用户通过可视化编辑器输入的领域知识描述,生成领域知识描述定义文件;将所述领域知识描述定义文件提交至后台进行校验,并接收返回的校验结果;若校验结果为通过校验,则将所述用户输入的领域知识描述保存至相应领域知识描述文件中;否则向用户返回错误提示信息。进一步地,所述数据映射描述文件的定义过程包括:获取所述领域知识描述文件;选取数据源,载入所述数据源的数据字典;获取用户通过可视化编辑器建立的所述数据源至所述领域知识描述文件的数据映射关系;生成相应的数据映射描述文件,并将其提交至后台进行保存。进一步地,所述领域知识描述文件与所述数据映射描述文件均采用标准的JSON或YAML文件形式进行定义。进一步地,每个领域知识描述文件描述相关领域内某一子领域的知识,并用文件名称作为唯一标识;多个相关的领域知识描述文件通过文件名称相互引用其内部的知识。一种基于描述定义的知识图谱自动构建系统,包括:文件定义模块,用于定义领域知识描述文件,及对应的数据映射描述文件;知识体系生成模块,用于基于所述领域知识描述文件生成以RDF三元组表示的知识体系,并将所述知识体系保存至三元组存储数据库中;知识实例生成模块,用于基于所述数据映射描述文件将指定数据源的数据自动提取成知识实例,并将所述知识实例以属性图的形式保存至图数据库中;知识图谱构建模块,用于构建知识概念至所述知识实体的三元组,并将其存储至所述知识体系中。进一步地,所述领域知识描述文件的定义过程包括:获取用户通过可视化编辑器输入的领域知识描述,生成领域知识描述定义文件;将所述领域知识描述定义文件提交至后台进行校验,并接收返回的校验结果;若校验结果为通过校验,则将所述用户输入的领域知识描述保存至相应领域知识描述文件中;否则向用户返回错误提示信息。进一步地,所述数据映射描述文件的定义过程包括:获取所述领域知识描述文件;选取数据源,载入所述数据源的数据字典;获取用户通过可视化编辑器建立的所述数据源至所述领域知识描述文件的数据映射关系;生成相应的数据映射描述文件,并将其提交至后台进行保存。进一步地,所述领域知识描述文件与所述数据映射描述文件均采用标准的JSON或YAML文件形式进行定义。进一步地,每个领域知识描述文件描述相关领域内某一子领域的知识,并用文件名称作为唯一标识;多个相关的领域知识描述文件通过文件名称相互引用其内部的知识。上述用户为领域业务专家。本专利技术的有益效果体现在:本专利技术生成的知识图谱,即保留三元组的语义及逻辑推理的能力又可以利用属性图数据库高效的图计算能力,对知识图谱的进一步应用打下坚实基础;通过本专利技术,领域业务专家无需掌握复杂的RDF、OWL等知识表示技术即可有效的描述领域业务知识体系;本专利技术为给定的知识描述定义生成的知识图谱,可同时使用三元组存储与图存储两种数据库,同时又能控制两个库的有效数据存储量,减少不必要的冗余,达到一个良好的平衡点;在前端,具体实现部分由系统自动生成,领域业务专家可快速的检查其定义的知识图谱,节省大量的时间。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为本专利技术实施例一种基于描述定义的知识图谱自动构建方法流程图;图2为本专利技术实施例另一种基于描述定义的知识图谱自动构建方法流程图;图3为本专利技术实施例一种基于描述定义的知识图谱自动构建方法逻辑架构图;图4为本专利技术实施例一种基于用户侧的领域知识描述文件定义方法流程图;图5文本专利技术实施例一种基于用户侧的数据映射描述文件定义方法流程图;图6为本专利技术实施例一种基于描述定义的知识图谱自动构建系统结构图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限制本专利技术的保护范围。需要注本文档来自技高网
...

【技术保护点】
1.一种基于描述定义的知识图谱自动构建方法,其特征在于,包括:定义领域知识描述文件,及对应的数据映射描述文件;基于所述领域知识描述文件生成以RDF三元组表示的知识体系,并将所述知识体系保存至三元组存储数据库中;基于所述数据映射描述文件将指定数据源的数据自动提取成知识实例,并将所述知识实例以属性图的形式保存至图数据库中;构建知识概念至所述知识实体的三元组,并将其存储至所述知识体系中。

【技术特征摘要】
1.一种基于描述定义的知识图谱自动构建方法,其特征在于,包括:定义领域知识描述文件,及对应的数据映射描述文件;基于所述领域知识描述文件生成以RDF三元组表示的知识体系,并将所述知识体系保存至三元组存储数据库中;基于所述数据映射描述文件将指定数据源的数据自动提取成知识实例,并将所述知识实例以属性图的形式保存至图数据库中;构建知识概念至所述知识实体的三元组,并将其存储至所述知识体系中。2.如权利要求1所述的方法,其特征在于,所述领域知识描述文件的定义过程包括:获取用户通过可视化编辑器输入的领域知识描述,生成领域知识描述定义文件;将所述领域知识描述定义文件提交至后台进行校验,并接收返回的校验结果;若校验结果为通过校验,则将所述用户输入的领域知识描述保存至相应领域知识描述文件中;否则向用户返回错误提示信息。3.如权利要求2所述的方法,其特征在于,所述数据映射描述文件的定义过程包括:获取所述领域知识描述文件;选取数据源,载入所述数据源的数据字典;获取用户通过可视化编辑器建立的所述数据源至所述领域知识描述文件的数据映射关系;生成相应的数据映射描述文件,并将其提交至后台进行保存。4.如权利要求3所述的方法,其特征在于,所述领域知识描述文件与所述数据映射描述文件均采用标准的JSON或YAML文件形式进行定义。5.如权利要求4所述的方法,其特征在于,每个领域知识描述文件描述相关领域内任一子领域的知识,并用文件名称作为唯一标识;多个相关的领域知识描述文件通过文件名称相互引用其内部的知识。6.一种基于描述定义的知识图谱自动构建系统...

【专利技术属性】
技术研发人员:柴志伟谢珉
申请(专利权)人:宁波深擎信息科技有限公司上海深擎信息科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1