一种基于D2RQ的结构化数据知识抽取方法技术

技术编号:37135500 阅读:16 留言:0更新日期:2023-04-06 21:34
本发明专利技术公开了一种基于D2RQ的结构化数据知识抽取方法,包括以下步骤:获取执勤数据知识图谱Schema信息;连接执勤数据库;关系表与知识图谱Schema中实体的单向映射;关系表与实体属性、实体关系的映射;跨表数据与实体属性的关联;生成Mapping文件;D2RQ自动抽取。基于D2RQ和知识图谱Schema的结构化执勤数据知识抽取主要是对结构化的执勤数据进行知识抽取,通过对结构化执勤数据源中的表和字段与知识图谱Schema中的实体、属性、关系进行映射,形成相应的Mapping映射文件,并最终通过D2RQ引擎实现执勤数据的自动抽取和转换。实现执勤数据的自动抽取和转换。

【技术实现步骤摘要】
一种基于D2RQ的结构化数据知识抽取方法


[0001]本专利技术属于知识图谱
,具体涉及一种基于D2RQ的结构化数据知识抽取方法。

技术介绍

[0002]知识图谱描述知识资源及其载体,挖掘、分析和构建知识及它们之间的相互联系。在军事领域中,利用知识图谱构建分析模型,辅助支持分析决策,已经成为趋势。知识图谱的存储方式,按照现在应用比较广泛的RDF(Resource Description Framework)规范保存为三元组形式,RDF是一种资源描述语言。而执勤数据大多储存在关系数据库如Mysql中,以不同的表的形式来区分,所以需要进行转换。D2RQ是一个能够将关系数据库中的内容转换成RDF三元组的工具。
[0003]现有知识图谱构建技术在军事领域中面临着众多挑战。首先,军事知识专业性强、知识密集且数据量大,构建知识图谱存在效率低、质量难以保证等难题;其次,军事知识动态变化快,构建知识图谱需要考虑知识更新和拓展性难题;最后,D2RQ作为结构化数据自动转换为RDF数据的工具,常用于军事领域数据的知识抽取,由于无法与执勤数据知识图谱Schema相结合,如果直接在执勤数据上使用D2RQ工具进行知识抽取,会导致生成的RDF数据不符合执勤数据知识图谱Schema结构,影响执勤数据知识图谱的生成。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提出一种基于D2RQ的结构化数据知识抽取方法。通过对知识图谱Schema和结构化执勤数据表进行实体的单向映射、实体属性映射和实体关系的映射,建立知识图谱Schema与关系数据库的联系,在此基础上用D2RQ将结构化数据转换为RDF图数据,并最终构建知识图谱。解决了D2RQ与知识图谱Schema相结合的问题,同时,映射关系的灵活和执勤数据的导入提升了知识图谱的拓展性和质量。
[0005]基于上述目的,一种基于D2RQ的结构化数据知识抽取方法,包括以下步骤:
[0006]步骤1,获取执勤数据知识图谱Schema信息;
[0007]步骤2,连接执勤数据库;
[0008]步骤3,关系表与知识图谱Schema中实体的单向映射;
[0009]步骤4,关系表与实体属性、实体关系的映射;
[0010]步骤5,跨表数据与实体属性的关联。
[0011]步骤6,生成Mapping文件。
[0012]步骤7,D2RQ自动抽取。
[0013]具体地,步骤1中执勤数据知识图谱Schema信息的获取分为引用和自定义两种方式,若选择引入的方式则直接得到知识图谱Schema,若采用自定义的方式则需要考虑具体执勤业务。
[0014]具体地,步骤3具体包括以下步骤:进行执勤数据库中的关系表与知识图谱Schema
中实体的对应操作,对关系表中的列,若对应知识图谱Schema中的实体,则对该列标记为“实体”,并通过单向函数,建立该列与对应的知识图谱Schema中实体及URI标识列的映射。
[0015]具体地,步骤4具体包括以下步骤:
[0016]当要生成的RDF数据来源于同一张表时,在完成步骤3后,将关系表中的列与知识图谱Schema中实体属性、实体关系进行映射;
[0017]对执勤关系表中的列,若与同表中“实体”列的关系对应到知识图谱Schema中为“资源

属性

属性值”的关系,其中属性值是某种数据类型的值,则标记该列为“数据属性谓词”,在后续D2RQ生成的RDF数据中的“属性值”为该列的字面值;
[0018]对执勤关系表中的列,若与同表中“实体”列的关系对应到知识图谱Schema中为“资源

属性

属性值”的关系,其中属性值是另一个资源实体,则标记该列为“对象属性谓词”,确定该列对应的知识图谱Schema中的实体,方法同步骤3,后续D2RQ生成的RDF数据中的“属性值”为该列值对应的实体。
[0019]具体地,步骤5包括以下步骤:当要生成的RDF数据来源于多张表时,在完成步骤3后,依次找到“资源”所对应的表、知识图谱schema中属性、“属性值”所在的表、“属性值”所在的列,以及跨表连接的依据,同步骤4一样进行标记;若“属性值”是资源实体而非某一列的字面值,则匹配到该表对应的“实体”列。
[0020]具体地,步骤7具体包括以下步骤:生成Mapping文件后,D2RQ通过Mapping文件对关系型数据库的数据进行转换和访问,将结构化执勤数据直接转化为三元组数据集。
[0021]具体地,D2RQ利用方式为:通过D2R Server自动调用D2RQ Engine对数据进行转换访问;
[0022]D2RQ利用方式为:在Java application中通过Jena/Seasame的API去使用D2RQ Engine。
附图说明
[0023]图1为本专利技术实施例的系统的流程示意图。
具体实施方式
[0024]下面结合附图对本专利技术作进一步的说明,但不以任何方式对本专利技术加以限制,基于本专利技术教导所作的任何变换或替换,均属于本专利技术的保护范围。
[0025]基于D2RQ和知识图谱Schema的结构化执勤数据知识抽取主要是对结构化的执勤数据进行知识抽取,通过对结构化执勤数据源中的表和字段与知识图谱Schema中的实体、属性、关系进行映射,形成相应的Mapping映射文件,并最终通过D2RQ引擎实现执勤数据的自动抽取和转换,如图1。
[0026]步骤1,获取执勤数据知识图谱Schema信息
[0027]执勤数据知识图谱Schema一方面可以描述知识图谱中的实体类型、实体属性和关系等信息,实现知识图谱结构定义与设计。另一方面也是知识图谱查询和分析的重要参考,相当于关系型数据库的表结构。因而首先需要获得执勤数据知识图谱Schema信息。
[0028]执勤数据知识图谱Schema信息的获取可分为引用和自定义两种方式。若选择引入的方式则直接得到知识图谱Schema,若采用自定义的方式则需要考虑具体执勤业务。知识
图谱Schema定义是与业务强行绑定的,没有通用的标准与流程。在对执勤数据的重要实体抽取、事件关联分析的实现中,与业务相关的的数据包括人员、装备、设施、地点、事件等。人员会有一些自身的属性,比如性别、年龄、学历、专业等,也会有一些与其他实体的关联关系,比如籍贯、毕业学校、单位等。这些关系可以在同一个库同一个表里,也可以随着后期需求的增加,在新的关联数据接入时,分布于不同的库表。因而当执勤数据进行更新或知识图谱进行扩展时,知识图谱Schema可以进行动态扩展。
[0029]步骤2,连接执勤数据库。
[0030]人员、装备、设施等已经存在于数据库内的结构化数据,是一些业务的支撑基础,这些数据格式整齐、库表字段含义明确,数据质量较高。在步骤1获取执勤数据知识图谱Schema信息后,连接结构化执勤数据关系型数据库,如MySQL/Oracle/SQL S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于D2RQ的结构化数据知识抽取方法,其特征在于,包括以下步骤:步骤1,获取执勤数据知识图谱Schema信息;步骤2,连接执勤数据库;步骤3,关系表与知识图谱Schema中实体的单向映射;步骤4,关系表与实体属性、实体关系的映射;步骤5,跨表数据与实体属性的关联;步骤6,生成Mapping文件;步骤7,D2RQ自动抽取。2.根据权利要求1所述的一种基于D2RQ的结构化数据知识抽取方法,其特征在于,步骤1中执勤数据知识图谱Schema信息的获取分为引用和自定义两种方式,若选择引入的方式则直接得到知识图谱Schema,若采用自定义的方式则需要考虑具体执勤业务。3.根据权利要求1所述的一种基于D2RQ的结构化数据知识抽取方法,其特征在于,步骤3具体包括以下步骤:进行执勤数据库中的关系表与知识图谱Schema中实体的对应操作,对关系表中的列,若对应知识图谱Schema中的实体,则对该列标记为“实体”,并通过单向函数,建立该列与对应的知识图谱Schema中实体及URI标识列的映射。4.根据权利要求1所述的一种基于D2RQ的结构化数据知识抽取方法,其特征在于,步骤4具体包括以下步骤:当要生成的RDF数据来源于同一张表时,在完成步骤3后,将关系表中的列与知识图谱Schema中实体属性、实体关系进行映射;对执勤关系表中的列,若与同表中“实体”列的关系对应到知识图谱Schema中为“资源

属性

属性值”的关系,其中属性值是某种数据类型的值,则标记该列为“数据属性谓词”,在后续D2RQ生成的R...

【专利技术属性】
技术研发人员:李璇王懋叶培春黄宏斌刘丽华王佳宋伟
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1