一种关联数据知识图谱概览提取方法技术

技术编号:15260550 阅读:37 留言:0更新日期:2017-05-03 13:26
本发明专利技术提供一种关联数据知识图谱概览提取方法,该方法首先通过SPARQL查询关联数据所包含的领域知识关系,然后针对每一个知识关系构建知识图谱概览三元组并形成知识图谱概览G1,再提取每个知识分类的知识图谱概览三元组并形成知识图谱概览G2,最终合并两者成为完整的关联数据知识图谱概览G;该方法以知识关系为切入点的、完全使用SPARQL查询的实现方法,该方法提取速度快而稳定,提取结果的查全率高,且不需要网络爬虫或额外的索引工作。

A method for extracting the knowledge map of association data

The invention provides an overview of related data mapping knowledge extraction method, this method firstly SPARQL query contains data associated with the domain knowledge, then for every knowledge and build the knowledge map and knowledge map overview three tuple overview G1, extract knowledge map overview of each knowledge classification and knowledge map of three tuple overview of G2, the two eventually merged into a complete overview of the knowledge map data associated with G; completely using the method based on knowledge relations as the breakthrough point, the realization method of SPARQL query, the extraction method is fast and stable, extracting the recall, and does not require a web crawler or additional indexing.

【技术实现步骤摘要】

本专利技术涉及关联数据索引领域,更具体地,涉及一种关联数据知识图谱概览提取方法。
技术介绍
关联数据(LinkedData)最早是在2007年5月,由ChrisBizerandRichardCyganiak向W3CSWEO提交的一个项目申请LinkedOpenDataProject中提出来的。关联数据提出的目的是构建一张计算机能理解的语义数据网络,而不仅仅是人能读懂的文档网络,以便于在此之上构建更智能的应用。LinkedOpenDataProject的宗旨在于号召人们将现有数据发布成关联,并将不同数据源互联起来。关联数据主要通过RDF格式(ResourceDescriptionFramework)来表示。RDF将一个资源描述成一组三元组(主语,谓语,宾语)。SPARQL是W3C推荐标准,提供了对Web上或RDF存储(RDFStore)中的RDF图内容进行查询和处理的语言和协议。每个关联数据都提供SPARQL查询终端(SPARQLEndpoint),它是一种HTTP绑定协议,用于通过HTTP进行SPARQL查询,并返回相应数据。虽然关联数据可以通过SPARQL查询终端进行查询,但是对于某个特定领域的关联数据,用户在提交查询请求前必须事先知道此关联数据的内部数据结构(也就是关联数据知识图谱概览),包括有哪些:知识分类(Class)、知识关系(ObjectProperty)、知识属性(DatatypeProperty)。在此基础之上,用户才能写出SPARQL语句进行查询。就如同查询数据库之前,首先要了解数据库的表结构Schema才行。因此,如何快速有效提取关联数据知识图谱概览是亟待解决的问题。现有技术中的方案包括:用网络爬虫爬关联数据并进行索引,从而抽取关联数据知识图谱概览;用SPARQL查询并以知识分类为切入点进行关联数据知识图谱概览提取;前者的缺陷在于:需要通过网络爬虫获取、扫描关联数据的全部数据,需要做额外的数据索引,如果关联数据不让爬,则无法处理;后者的缺陷在于:没有明确定义定义rdf:type、rdfs:Class和owl:Class,是关联数据常有的现象,因此以知识分类为切入往往有关联数据知识图谱概览抽取部分遗漏情况出现。
技术实现思路
本专利技术提供一种提取速度快而稳定,提取结果的查全率高的关联数据知识图谱概览提取方法。为了达到上述技术效果,本专利技术的技术方案如下:一种关联数据知识图谱概览提取方法,包括以下步骤:S1:查询关联数据所包含的知识关系集合P;S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’;S3:构建集合P’中每一个知识关系p识谱图概览G1;S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;S5:将G1与G2合并到G,G就是最终的知识图谱概览。进一步地,所述步骤S2的过程如下:S21:对于知识关系集合P中的每一个知识关系p,提取它的命名空间n;S22:如果命名空间n是rdf,rdfs或owl,则将p纳入到待过滤的知识关系集合S23:将集合中的每个元素从P中删除,得到集合P’。进一步地,所述步骤S3的过程如下:以主体和客体为切入点,构建知识关系p的知识图谱概览G1:S311:查询以知识关系p为谓语的三元组的主体s和客体o,分别查询主体s和客体o的知识分类集合C1和C2;S312:如果C1和C2都不为空,则对于每一个(c1,c2)组合,其中c1∈C1,c2∈C2,构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。另一种可选的方式中,所述步骤S3的过程如下:以谓语为切入点,构建知识关系p的知识图谱概览G1:S321:查询以知识关系p为主语、以rdfs:domain为谓语的三元组客体c1;S322:查询以知识关系p为主语、以rdfs:range为谓语的三元组的客体c2;S323:如果c1和c2都能查询到,则构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。进一步地,所述步骤S4的过程如下:S41:查询以rdfs:subClassOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;S42:查询以owl:equivalentClass为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;S43:查询以owl:complementOf为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中;S44:查询以owl:disjointWith为谓语的三元组,如果此三元组的主体和客体都不是匿名节点,则将这个三元组纳入到知识图谱概览G2中。进一步地,所述步骤S5的过程如下:S51:去掉知识图谱概览G1中重复的知识图谱概览三元组,形成知识图谱概览G1’;S52:去掉知识图谱概览G2中重复的知识图谱概览三元组,形成知识图谱概览G2’;S53:将G1’和G2’合并成知识图谱概览G’;S54:去掉知识图谱概览G’中重复的知识图谱概览三元组,最终形成知识图谱概览G。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术方法首先通过SPARQL查询关联数据所包含的领域知识关系,然后针对每一个知识关系构建知识图谱概览三元组并形成知识图谱概览G1,再提取每个知识分类的知识图谱概览三元组并形成知识图谱概览G2,最终合并两者成为完整的关联数据知识图谱概览G;该方法以知识关系为切入点的、完全使用SPARQL查询的实现方法,该方法提取速度快而稳定,提取结果的查全率高,且不需要网络爬虫或额外的索引工作。附图说明图1为本专利技术方法的流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1如图1所示,一种关联数据知识图谱概览提取方法,包括以下步骤:S1:查询关联数据所包含的知识关系集合P;S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’,其中,rdf、rdfs和owl都是XML命名空间简写;本实施例中,rdf命名空间:http://www.w3.org/1999/02/22-rdf-syntax-ns#,rdfs命名空间:http://www.w3.org/2000/01/rdf-schema#,owl命名空间:http://www.w3.org/2002/07/owl#;S3:构建集合P’中每一个知识关系p识谱图概览G1;S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;S5:将G1与G2合并到G,G就是最终的知识图谱概览。步骤S2的过程如下:S21:对于知识关系集合P中的每一个知识关系p,提取它的命名空间n;S22:如果命名空间n是rdf,rdfs或owl,则将p纳入到待过滤的知识关系集合其中n=http://www.w3.org本文档来自技高网
...

【技术保护点】
一种关联数据知识图谱概览提取方法,其特征在于,包括以下步骤:S1:查询关联数据所包含的知识关系集合P;S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’;S3:构建集合P’中每一个知识关系p识谱图概览G1;S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;S5:将G1与G2合并到G,G就是最终的知识图谱概览。

【技术特征摘要】
1.一种关联数据知识图谱概览提取方法,其特征在于,包括以下步骤:S1:查询关联数据所包含的知识关系集合P;S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’;S3:构建集合P’中每一个知识关系p识谱图概览G1;S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;S5:将G1与G2合并到G,G就是最终的知识图谱概览。2.根据权利要求1所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S2的过程如下:S21:对于知识关系集合P中的每一个知识关系p,提取它的命名空间n;S22:如果命名空间n是rdf,rdfs或owl,则将p纳入到待过滤的知识关系集合S23:将中的每个元素从P中删除,得到集合P’。3.根据权利要求2所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S3的过程如下:以主体和客体为切入点,构建知识关系p的知识图谱概览G1:S311:查询以知识关系p为谓语的三元组的主体s和客体o,分别查询主体s和客体o的知识分类集合C1和C2;S312:如果C1和C2都不为空,则对于每一个(c1,c2)组合,其中c1∈C1,c2∈C2,构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。4.根据权利要求2所述的关联数据知识图谱概览提取方法,其特征在于,所述步骤S3的过程如下:以谓语为切入点,构建知识关系p的知识图谱概览G1:S321:查询以知识关系p为主语、以rdfs...

【专利技术属性】
技术研发人员:姜赢杨静高巾朱玲萱
申请(专利权)人:北京师范大学珠海分校
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1