当前位置: 首页 > 专利查询>同济大学专利>正文

一种大规模知识图谱复杂路径查询的视图物化方法技术

技术编号:15502750 阅读:69 留言:0更新日期:2017-06-03 23:30
本发明专利技术涉及一种大规模知识图谱复杂路径查询的视图物化方法,包括以下3个模块:1)复杂路径查询的视图选择;2)复杂路径查询的视图存储;3)复杂路径查询的视图维护。复杂路径查询的视图选择模块实现预物化的复杂路径查询集识别、基于视图的复杂路径查询代价评估以及基于代价的复杂路径查询视图选取。复杂路径查询的视图存储模块实现基于内存列式的复杂路径查询视图存储组织以及复杂路径查询视图计算。复杂路径查询的视图维护模块实现基于删除数据集的视图更新、视图自动扩展以及基于插入数据集的视图更新。与现有技术相比,本发明专利技术具有良好的异构平台间移植能力以及显著提高大规模知识图谱复杂路径查询效率等优点。

A materialized view method for large scale knowledge mapping complex path queries

The invention relates to a method for large-scale materialized knowledge mapping of complex path queries, including the following 3 modules: 1) complex path query view selection; 2) complex path queries view storage; 3) complex path query view maintenance. The view selection module of complex path query realizes the complex path query set recognition of materialized objects, view based complex path query cost evaluation and cost based complex path query view selection. The view storage module of complex path inquiry realizes the complex path query, view storage organization and complex path query view calculation based on memory column type. The view maintenance module of complex path query realizes the view updating based on the deleted data set, the view automatic expansion and the view updating based on the inserted data set. Compared with the prior art, the invention has the advantages of good transplantation capability between heterogeneous platforms, remarkable improvement of large-scale knowledge mapping, complex path inquiry efficiency, and the like.

【技术实现步骤摘要】
一种大规模知识图谱复杂路径查询的视图物化方法
本专利技术涉及一种大规模知识图谱复杂路径查询的视图物化方法,属于计算机应用

技术介绍
在大数据时代,知识图谱是用来组织和可视化大数据的一种重要工具,旨在描述和刻画真实世界中存在的各种实体以及实体间的关系,通常用有向图来组织和表示。图中的节点表示实体,而图中的边则由关系构成,关系用来连接两个实体,刻画它们之间的关联。通常,我们用G(E,R)来表示知识图谱,其中E={ei}为所有实体组成的集合,R={r<ei,ej>}为实体间关系的集合,r<ei,ej>表示实体ei到ej的关系。不难看出,在多数情况下,r<ei,ej>≠r<ej,ei>。与现有的研究工作类似,我们将知识图谱G用资源描述框架RDF(ResourceDescriptionFramework)三元组的集合来表示,即G(E,R)={(ei,r,ej)}。目前比较主流的知识图谱包括Freebase、YAGO、Dbpedia、InternetMovieDatabase等。复杂路径查询是深度分析和挖掘知识图谱,进而发现知识图谱隐含线索与规律的重要手段,目前成为知识图谱理论及
的一个研究热点和重点。目前,学术界和工业界通常用Datalog语言来表达知识图谱上的复杂路径查询。一条复杂路径查询CQ可以用一个Datalog语言规则集合表示,例如CQ用如下4条规则组成的集合来表达:规则1:P(x,r,y):-a(x,r1,y);规则2:P(x,r,z):-P(x,r,z)∧P(y,r,z);规则3:Q(x,v,y):-a(x,r,y)∧P(x,r,z);规则4:P(x,v,y):-b(x,w,y)∧Q(x,v,z)。在上面所给的4条规则中,“:-”的左边部分称作规则的头部,右边部分称作规则的规则体。x,y,z表示实体,r,v,w表示关系。在规则体中,a和b为知识图谱中存在的已知的RDF三元组事实,称作静态谓词;而在规则头部中,P和Q为复杂路径查询CQ所要得到的RDF三元组事实,称作查询谓词。目前,国内外有一些知名的实验室团队在做这类的研究工作并取得了较好的应用成果,例如加州大学洛杉矶分校(UniversityofCalifornia,LosAngeles)的AlexanderShkapsky团队、阿姆斯特丹自由大学(VUUniversityAmsterdam)的JacopoUrbani团队、牛津大学(UniversityofOxford)的BernardoCuencaGrau团队、卡拉布里亚大学(UniversityofCalabria)的ValeriaFionda团队、中国人民大学的X.Zhang团队以及同济大学的Y.Xiang团队等。然而我们发现,在大数据时代,知识图谱的规模非常巨大,里面包含着海量的实体和关系。因此,如果每次复杂路径查询均从零开始处理,其必导致查询的时间代价极大。而且当多个用户同时提交复杂路径查询时,系统的处理效率将非常低,其响应速度将非常慢。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷,而提出一种大规模知识图谱复杂路径查询的视图物化方法。该方法首先识别用户频繁提交的复杂路径查询集合,并基于代价的方式选取与复杂路径查询集合相关的视图进行物化;其次,基于内存列式的组织策略将待物化的复杂路径查询视图进行计算和存储;最后,当知识图谱动态变化时,对复杂路径查询视图自动进行增量更新和高效维护。在实际应用中,本专利技术能够显著提高大规模知识图谱上复杂路径查询的效率以及降低多用户并发查询的系统响应时间。本专利技术的目的可以通过以下技术方案来实现:1.一种大规模知识图谱复杂路径查询的视图物化方法,其特征在于,包括以下3个模块:1)复杂路径查询的视图选择;2)复杂路径查询的视图存储;3)复杂路径查询的视图维护。2.根据权利要求1所述的一种大规模知识图谱复杂路径查询的视图物化技术,其特征在于,所述的复杂路径查询的视图选择过程如下:1)预物化的复杂路径查询集识别;2)基于视图的复杂路径查询代价评估;3)基于代价的复杂路径查询视图选取。3.根据权利要求1所述的一种大规模知识图谱复杂路径查询的视图物化技术,其特征在于,所述的复杂路径查询的视图存储过程如下:1)基于内存列式的复杂路径查询视图存储组织;2)复杂路径查询视图计算。4.根据权利要求1所述的一种大规模知识图谱复杂路径查询的视图物化技术,其特征在于,所述的复杂路径查询的视图维护过程如下:1)基于删除数据集的视图更新;2)视图自动扩展;3)基于插入数据集的视图更新。与现有技术相比,本专利技术具有以下优点:1、能够显著提高大规模知识图谱上单个复杂路径查询的效率;2、能够显著降低多个复杂路径查询并发执行的系统响应时间;3、具有良好的异构平台间的移植能力。附图说明图1为本专利技术的技术架构图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。实施例1、复杂路径查询的视图选择实施方法(1)预物化的复杂路径查询集识别由于知识图谱上的可以提交的不同复杂路径查询的数量巨大,因此在现实应用中,不可能物化所有的复杂路径查询视图,而且有些复杂路径查询不是经常需要提交,因此也没必要对它们进行物化处理。为此,本专利技术首先需要识别预物化的复杂路径查询集,主要通过以下3个步骤来具体实施:步骤1:获取最近一个时间周期(例如一个星期)用户在系统中提交的所有复杂路径查询集合CQS={CQ1,…,CQn},其中每个查询CQi(1≤i≤n)对应一个Datalog语言规则集DLi;步骤2:对于复杂路径查询集合CQS,计算CQS的最小超查询msQ,即它所对应的Datalog语言规则集步骤3:基于步骤1和步骤2分别得到的CQS和msQ,构造查询空间格Θ(msQ,CQS,π),其中π表示子集关系,即如果CQ1πCQ2,那么有查询空间格Θ(msQ,CQS,π)构造过程如下:步骤3.1:初始化队列L为空,并将msQ放入L中;步骤3.2:将msQ作为Θ(msQ,CQS,π)的根节点;步骤3.3:循环如下操作,直到L为空为止:1)从L中取出第一个元素FQ;2)记FQ所对应的Datalog语言规则集为DLf,获取只比DLf少一条规则的k=|DLf|个子集3)对于2)中获取的做如下两个判断:i)如果已在Θ(msQ,CQS,π)中,那么在Θ(msQ,CQS,π)中直接增加条有向边,从DLf指向否则将加入Θ(msQ,CQS,π)中,并增加条有向边,从DLf指向ii)如果那么将放入L中;步骤3.4:删除Θ(msQ,CQS,π)中所有不在CQS里面的叶子节点。(2)基于视图的复杂路径查询代价评估对于查询空间格Θ(msQ,CQS,π)中存在路径的两个复杂路径查询CQ1和CQ2,并且有CQ1πCQ2。如果CQ2已完成视图物化,那么CQ1的查询结果可以从CQ2视图来计算,而没必要以大规模知识图谱为输入参数从零开始计算。基于该策略,本专利技术通过如下5个步骤来具体实施代价评估:步骤1:获取CQ2视图所包含的RDF事实表F1,…,Fm,其中m为CQ2视图中事实表的个数,并记X=(F1,…,Fm);步骤2:通过从X=(F1,…,Fm)中进行有放回采样10000次,得到10本文档来自技高网
...
一种大规模知识图谱复杂路径查询的视图物化方法

【技术保护点】
一种大规模知识图谱复杂路径查询的视图物化方法,其特征在于,包括以下3个模块:1)复杂路径查询的视图选择;2)复杂路径查询的视图存储;3)复杂路径查询的视图维护。

【技术特征摘要】
1.一种大规模知识图谱复杂路径查询的视图物化方法,其特征在于,包括以下3个模块:1)复杂路径查询的视图选择;2)复杂路径查询的视图存储;3)复杂路径查询的视图维护。2.根据权利要求1所述的一种大规模知识图谱复杂路径查询的视图物化方法,其特征在于,所述的复杂路径查询的视图选择过程如下:1)预物化的复杂路径查询集识别;2)基于视图的复杂路径查询代价评估;3)基于代价的复杂路径查询视图选取。...

【专利技术属性】
技术研发人员:黄震华程久军向阳
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1