一种关联数据知识图谱概览提取方法技术

技术编号：15260550 阅读：37 留言：0更新日期：2017-05-03 13:26

本发明专利技术提供一种关联数据知识图谱概览提取方法，该方法首先通过SPARQL查询关联数据所包含的领域知识关系，然后针对每一个知识关系构建知识图谱概览三元组并形成知识图谱概览G1，再提取每个知识分类的知识图谱概览三元组并形成知识图谱概览G2，最终合并两者成为完整的关联数据知识图谱概览G；该方法以知识关系为切入点的、完全使用SPARQL查询的实现方法，该方法提取速度快而稳定，提取结果的查全率高，且不需要网络爬虫或额外的索引工作。

A method for extracting the knowledge map of association data

The invention provides an overview of related data mapping knowledge extraction method, this method firstly SPARQL query contains data associated with the domain knowledge, then for every knowledge and build the knowledge map and knowledge map overview three tuple overview G1, extract knowledge map overview of each knowledge classification and knowledge map of three tuple overview of G2, the two eventually merged into a complete overview of the knowledge map data associated with G; completely using the method based on knowledge relations as the breakthrough point, the realization method of SPARQL query, the extraction method is fast and stable, extracting the recall, and does not require a web crawler or additional indexing.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及关联数据索引领域，更具体地，涉及一种关联数据知识图谱概览提取方法。
技术介绍
关联数据(LinkedData)最早是在2007年5月，由ChrisBizerandRichardCyganiak向W3CSWEO提交的一个项目申请LinkedOpenDataProject中提出来的。关联数据提出的目的是构建一张计算机能理解的语义数据网络，而不仅仅是人能读懂的文档网络，以便于在此之上构建更智能的应用。LinkedOpenDataProject的宗旨在于号召人们将现有数据发布成关联，并将不同数据源互联起来。关联数据主要通过RDF格式(ResourceDescriptionFramework)来表示。RDF将一个资源描述成一组三元组(主语，谓语，宾语)。SPARQL是W3C推荐标准，提供了对Web上或RDF存储(RDFStore)中的RDF图内容进行查询和处理的语言和协议。每个关联数据都提供SPARQL查询终端(SPARQLEndpoint)，它是一种HTTP绑定协议，用于通过HTTP进行SPARQL查询，并返回相应数据。虽然关联数据可以通过SPARQL查询终端进行查询，但是对于某个特定领域的关联数据，用户在提交查询请求前必须事先知道此关联数据的内部数据结构(也就是关联数据知识图谱概览)，包括有哪些：知识分类(Class)、知识关系(ObjectProperty)、知识属性(DatatypeProperty)。在此基础之上，用户才能写出SPARQL语句进行查询。就如同查询数据库之前，首先要了解数据库的表结构Schema才行。因此，如何快速有效提取关联...

【技术保护点】
一种关联数据知识图谱概览提取方法，其特征在于，包括以下步骤：S1：查询关联数据所包含的知识关系集合P；S2：过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系，得到集合P’；S3：构建集合P’中每一个知识关系p识谱图概览G1；S4：查询描述知识分类之间直接关系的知识图谱三元组，并纳入到知识图谱概览G2中；S5：将G1与G2合并到G，G就是最终的知识图谱概览。

【技术特征摘要】
1.一种关联数据知识图谱概览提取方法，其特征在于，包括以下步骤：S1：查询关联数据所包含的知识关系集合P；S2：过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系，得到集合P’；S3：构建集合P’中每一个知识关系p识谱图概览G1；S4：查询描述知识分类之间直接关系的知识图谱三元组，并纳入到知识图谱概览G2中；S5：将G1与G2合并到G，G就是最终的知识图谱概览。2.根据权利要求1所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S2的过程如下：S21：对于知识关系集合P中的每一个知识关系p，提取它的命名空间n；S22：如果命名空间n是rdf,rdfs或owl，则将p纳入到待过滤的知识关系集合S23：将中的每个元素从P中删除，得到集合P’。3.根据权利要求2所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S3的过程如下：以主体和客体为切入点，构建知识关系p的知识图谱概览G1：S311：查询以知识关系p为谓语的三元组的主体s和客体o，分别查询主体s和客体o的知识分类集合C1和C2；S312：如果C1和C2都不为空，则对于每一个(c1,c2)组合，其中c1∈C1，c2∈C2，构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组，并纳入到知识图谱概览G1中。4.根据权利要求2所述的关联数据知识图谱概览提取方法，其特征在于，所述步骤S3的过程如下：以谓语为切入点，构建知识关系p的知识图谱概览G1：S321：查询以知识关系p为主语、以rdfs...

【专利技术属性】
技术研发人员：姜赢，杨静，高巾，朱玲萱，
申请(专利权)人：北京师范大学珠海分校，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人