支持知识演化的知识图谱的查询方法和装置制造方法及图纸

技术编号:21629428 阅读:33 留言:0更新日期:2019-07-17 11:15
本发明专利技术提供了一种支持知识演化的知识图谱的查询方法和装置,该方法,包括:建立携带有时间信息的知识图谱,所述携带有时间信息的知识图谱是指:在知识图谱中记录有在不同时间下的主体数据、客体数据,以及主体与客体的关系数据;接收针对所述携带有时间信息的知识图谱的查询语句,其中,所述查询语句基于SPARQL语言的语法,并包含有针对时间范围的查询指示;根据所述查询语句查询在不同时间下的主体数据、客体数据,以及主体与客体的关系数据;并按照时间顺序输出查询结果。本发明专利技术在传统知识图谱上加入了时间,因此在时间知识图谱上可以保留知识的演变轨迹,记录下相同主题、客体或者关系在不同时间段内的状态,实现了对知识的演化查询。

Query Method and Device for Knowledge Map Supporting Knowledge Evolution

【技术实现步骤摘要】
支持知识演化的知识图谱的查询方法和装置
本专利技术涉及数据处理
,具体地,涉及支持知识演化的知识图谱的查询方法和装置。
技术介绍
知识图谱也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共性分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。知识图谱数据管理的一个重要问题是如何对知识图谱的数据进行存储和查询,知识图谱的数据可以用资源描述框架(ResourceDescriptionFramework,RDF)数据集来表示。其中,RDF三元组是构成RDF图的最基本单元,一个RDF三元组包含主语、谓语和宾语三个元素。目前,两种方法对RDF数据进行管理:一种是从传统的关系数据库角度出发,利用关系数据模型对RDF数据进行查询。一种是从图角度出发,利用图的相关技术对知识图谱进行查询。(1)关系数据模型角度出发从关系数据模型的角度出发,有一些经典的方法,下面重点介绍4种方法,三列表法、水平划分方法、属性表法和垂直划分方法。三列表是一种最简单方法,三列表包括了Subject、Property、Object,RDF的三元组可以映射到三列表的结构中。这种方法存储的结构简单,但是数据量较大,查询的效率较低。多组三元组的查询要对三元组做连接操作,若三元组数目较多,则表的规模较大,自连接操作的性能也较差。水平划分方法把知识图谱中的每一个RDF主体作为关系数据库表中的一行,列是由数据集合中所有的属性构成。这种方法会产生大量的列,而且很多列上都存在空值。在此基础上,有学者提出了属性表,对不同的实体进行分类,将相关属性的实体划分一类,每类对应一张水平表,从而减少了自连接操作。由于RDF数据来源众多,属性和主体间的关联性可能并不强,类似的主体可能并不包含相同的属性,数据的结构性较差,依然会产生大量的空值。垂直划分方法把三元组表拆分成为包含两列的表,每张表以三元组表中对应的属性为表名,有多少属性就拆分成多少张表,每张表的两列分别是Subject和Object。对于属性表中空值问题上,垂直划分方法避免了空间的浪费现象。但其对三元组模式查询中谓语为变量的情况仍然表现出较差的性能。(2)图角度出发从图角度出发,将知识图谱中的实体,以及各实体间的关系,表示成图中的顶点和边,知识图谱数据符合图模型结构。用户给出待查询的子图,利用图查询技术,如图模式匹配的方法,在知识图谱中查询出符合查询条件的子图。子图匹配一般分为子图同构和子图模拟两种。子图同构是在数据图中搜索出与用户定义的查询图在结构、节点以及边属性上完全匹配的子图。子图同构是一个NP问题,对图的拓扑结构有严格的要求,而知识图谱在数据的采集和处理过程中往往存在一定的数据缺失和噪声,使用子图同构的相关算法,通常很难匹配到与查询图完全一致的结果。因而,在大规模知识图谱上进行子图同构匹配容易遗漏查询结果。子图模拟是子图的近似匹配,它可以容忍结果中存在一定的噪声和错误,匹配的结果与查询图之间存在一定差别,但是通常可以满足实际的使用需求。将知识图谱的查询转换成图查询,也有很多需要解决的问题,比如,相对于普通的图模型,RDF图的边上面带有标签,也是一种查询的目标;再如,经典的图算法往往时间复杂度较高,需要根据实际应用来设计优化的算法降低查询的时间复杂度。SPARQL(SimpleProtocolandRDFQueryLanguage)是一种针对RDF数据的结构化查询语言,能从RDF图中获取查询的信息,由查询语言规范、SPARQL数据访问协议、XML格式的查询结果三个部分构成。SPARQL语言与更多人熟知的SQL语言相似,在select语句表达的含义中,select表示查询的内容,from表示需要使用的数据集,where表示查询需要满足的模式。但是,对于知识图谱的存储和查询,普遍存在如下主要问题:(1)不关注知识随时间的演变,大多数知识图谱都只关心主体与客体的当前关系,而忽视了关系随时间的变化有可能发生变化的事实。(2)目前知识图谱不存储知识随时间演变的相关信息。(3)无论以关系数据模型的形式或者是图方式表达RDF数据的知识图谱,都是使用SPARQL语言或其扩展语言来表达基本的查询语法,而W3C标准定义的SPARQL不支持基于时间的知识查询。(4)SPARQL语言不支持基于时间的知识演化的查询。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种支持知识演化的知识图谱的查询方法和装置。根据本专利技术提供的与现有技术相比,本专利技术具有如下的有益效果:本专利技术提供的支持知识演化的知识图谱的查询方法和装置,在传统知识图谱上加入了时间,构建了一种带有时间信息的知识图谱。在时间知识图谱上可以保留知识的演变轨迹,记录下相同主题、客体或者关系在不同时间段内的状态。扩展了传统SPARQL的语法,加入了对时间范围的查询,实现了对知识的演化查询。查询结果不是单一的一个值,而是以时间序列的方式排列成簇,能够体现知识的演化过程。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术提供的一实施例的时间知识图谱的逻辑结构示意图;图2为图1中实施例的时间知识图谱的存储结构示意图;图3为本专利技术提供的一实施例的时间知识图谱的查询原理示意图;图4为客体查询的原理示意图;图5为关系查询的原理示意图;图6为主体查询的原理示意图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。图1为本专利技术提供的一实施例的时间知识图谱的逻辑结构示意图,如图1所示,时间知识图谱是由5元组构成的集合,G=<V,LV,E,LE,TE>,其中V是知识图谱中的主体、客体、类、实体等元素的集合;LV是知识图谱中点上标签的集合;E是连接主体和客体的边;LE是边上标签的集合;TE是边上时间段的集合。图2为图1中实施例的时间知识图谱的存储结构示意图,图3为本专利技术提供的一实施例的时间知识图谱的查询原理示意图。如图3所示,给定一个时间知识图谱,在该时间知识图谱上进行知识演化查询。本实施扩展了SPARQL语言的语法,加入针对时间范围(TIMEFRAME)的查询,即在原有SPARQL语法后面加入了TIMEFRAME,新加入的TIMEFRAME部分语法结构为:TIMEFRAME(查询起始时间,查询终止时间)。具体地,如图3所示,查询接收器接收用户提交的查询语句,并按照时间顺序将查询语句放入提交队列;对提交队列中的查询语句进行词法分析和语法分析本文档来自技高网
...

【技术保护点】
1.一种支持知识演化的知识图谱的查询方法,其特征在于,包括:建立携带有时间信息的知识图谱,所述携带有时间信息的知识图谱是指:在知识图谱中记录有在不同时间下的主体数据、客体数据,以及主体与客体的关系数据;接收针对所述携带有时间信息的知识图谱的查询语句,其中,所述查询语句基于SPARQL语言的语法,并包含有针对时间范围的查询指示;根据所述查询语句查询在不同时间下的主体数据、客体数据,以及主体与客体的关系数据;并按照时间顺序输出查询结果。

【技术特征摘要】
1.一种支持知识演化的知识图谱的查询方法,其特征在于,包括:建立携带有时间信息的知识图谱,所述携带有时间信息的知识图谱是指:在知识图谱中记录有在不同时间下的主体数据、客体数据,以及主体与客体的关系数据;接收针对所述携带有时间信息的知识图谱的查询语句,其中,所述查询语句基于SPARQL语言的语法,并包含有针对时间范围的查询指示;根据所述查询语句查询在不同时间下的主体数据、客体数据,以及主体与客体的关系数据;并按照时间顺序输出查询结果。2.根据权利要求1所述的支持知识演化的知识图谱的查询方法,其特征在于,所述携带有时间信息的知识图谱用集合G表示,G=<V,LV,E,LE,TE>,其中,V表示知识图谱中的主体、客体、类、实体元素的集合;LV表示知识图谱中点上标签的集合;E表示连接主体和客体的边;LE表示边上标签的集合;TE表示边上时间段的集合。3.根据权利要求1所述的支持知识演化的知识图谱的查询方法,其特征在于,所述根据所述查询语句查询在不同时间下的主体数据、客体数据,以及主体与客体的关系数据,包括:将当前接受到的查询语句放入提交队列的尾部;顺次将所述提交队列中的查询语句进行词法和语法分析,得到查询对象search_object;将所述查询对象search_object放入等待队列的尾部;顺次将所述等待队列中的查询对象search_object进行处理后得到不同时间下的主体数据、客体数据,以及主体与客体的关系数据,其中,所述查询对象包括:主体、客体,以及主体与客体的关系。4.根据权利要求3所述的支持知识演化的知识图谱的查询方法,其特征在于,在查询对象search_object为客体时,包括如下步骤:A1:在存放携带有时间信息的知识图谱的邻接表中查找第一目标节点,找到第一目标节点之后,执行步骤A2;若找不到第一目标节点,则提示没有与查询对象search_object相匹配的查询结果,结束流程;其中,所述第一目标节点是指:对应的主体subject项与查询对象search_object中的主体subject项一致的节点;A2:在邻接表中找到与所述第一目标节点相邻的第二目标节点,找到所述第二目标节点之后,执行步骤A3;若找不到第二目标节点,则提示没有与查询对象search_object相匹配的查询结果,结束流程;其中,所述第二目标节点是指与所述第一目标节点相邻,且对应的关系relation项与查询对象中的关系relation项相匹配的节点;A3:读取第二目标节点的时间范围timeframe项的时间段信息,并与查询对象search_object中的timeframe项的时间段信息进行匹配,若匹配,则获取所述第二目标节点对应的客体object;A4:按照时间顺序,输出所有获取到的客体object。5.根据权利要求3所述的支持知识演化的知识图谱的查询方法,其特征在于,在查询对象search_object为主体和客体的关系时,包括如下步骤:B1:在存放携带有时间信息的知识图谱的邻接表中查找第一目标节点,找到第一目标节点之后,执行步骤B2;若找不到第一目标节点,则提示没有与查询对象search_object相匹配的查询结果,结束流程;其中,所述第一目标节点是指:对应的主体subject项与查询对象search_object中的主体subject项一致的节点;B2:在邻接表中找到与所述第一目标节点相邻的第三目标节点,找到所述第三目标节点之后,执行步骤B3;若找不到第三目标节点,则提示没有与查询对象search_object相匹配的查询结果,结束流程;其中,所述第三目标节点是指与所述第一目标节点相邻,且对应的object项中的客体信息与查询对象中的客体信息一致的节点;B3:读取第三目标节点的timeframe项的时间段信息,并与查询对象search_object中的时...

【专利技术属性】
技术研发人员:黄金晶
申请(专利权)人:苏州工业职业技术学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1