一种语义敏感的RDF知识图谱近似查询方法技术

技术编号:21571793 阅读:34 留言:0更新日期:2019-07-10 15:28
本发明专利技术公开了一种语义敏感的RDF知识图谱近似查询方法,该方法包括以下步骤:将类型相同的RDF知识图谱实体归为一类作为划入领域知识子图,并将其作为根节点,通过根节点向外遍历实体,根据实体与根节点周围的谓词的分布计算混合实体相似度,同时选定合适的阈值,将混合实体相似度大于阈值的划入子图;利用TransE方法训练各个子图,获得子图谓词之间的语义相似度;将谓词相似度作为RDF知识图谱实体之间边的权重,并通过语义敏感的路径探查方法进行Top‑K近似查询,获取语义近似的路径和实体结果。本发明专利技术利用子图划分,克服了大规模知识图谱语义相似度时间复杂度高的问题,利用语义敏感的路径探查方法加快查询的收敛速度。

A Semantic Sensitive Approximate Query Method for RDF Knowledge Map

【技术实现步骤摘要】
一种语义敏感的RDF知识图谱近似查询方法
本专利技术涉及知识图谱查询领域,具体涉及一种语义敏感的RDF知识图谱近似查询方法。
技术介绍
知识图谱是人工智能的基石,自从2012年由Google提出并成功应用到Google搜索引擎以来,受到人们越来越多的关注。知识图谱描述真实世界中存在的各种实体或概念及其关系,将其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。知识图谱可以通过资源性描述框架RDF进行表示,将知识图谱中的一条知识用一个三元组形式(主-谓-宾)表示,便于知识图谱的存储和处理。目前关于RDF知识图谱近似查询主要分为两类:(1)基于结构相似的查询:根据图的结构(图的连通度、最短路径、标签匹配等)制定近似查询方法来寻找查询目标。基于结构相似的查询仅根据图的结构进行查询,有较好的查询性能,但未考虑实体之间的语义关系。(2)基于语义相似的查询:在RDF知识图上支持语义的查询,通过与查询目标的语义进行比较,寻找语义相似的标签和实体,进而挖掘和扩展出语义等价的查询模式。基于语义相似的查询考虑到实体之间的语义关系,但通过语义来挖掘查询模式,算法复杂度高,在较短时间内只能寻找到简单的查询模式。综上所述,目前RDF知识图谱近似查询方法没有充分结合上述两种方法的查询优势。另外,针对实际应用中的大规模RDF知识图谱查询,需要研究相应的RDF知识图谱分解、压缩方法。
技术实现思路
本专利技术的目的在于克服上述已有方法的不足,提出一种语义敏感的RDF知识图谱近似查询方法。本专利技术先将RDF知识图谱划分为多个领域知识子图,在领域知识子图中融入语义信息,利用语义主导查询,形成一种语义敏感的RDF知识图谱近似查询方法,提升RDF知识图谱近似查询的精度和性能。本专利技术包括以下步骤:步骤1:领域知识子图划分考虑到RDF知识图谱的数据量大,进行TransE的训练,不仅需要消耗大量的训练时间,而且谓词的相似度会受到大量无关谓词的影响,产生的结果无法很好的体现谓词之间的相似程度。因此先将RDF知识图谱划分为多个领域知识子图。步骤1.1:领域知识子图划分的初始化根据RDF知识图谱O中实体的类型,将属于一个领域知识的所有相关实体汇集成领域知识子图,得到O1、O2······On,其中Oi∈O,i=1,2,3···n,领域知识子图Oi中包含了相同类型实体集合Ei,其中Ei∈E,对于领域知识子图Oi中的每个实体都有步骤1.2:领域知识子图划分的完善针对步骤1.1中的领域知识子图Oi中的实体集合Ei,逐个遍历实体完善领域知识子图的划分:a)将实体作为根节点通过广度优先遍历方法(BFS)在RDF知识图谱O中向外遍历。b)对探查到的每个实体,考虑该实体和根节点周围谓词的分布,据此进行基于Jaccard和余弦相似度相结合的混合实体相似度计算。混合实体相似度越大则同属一个领域知识子图的概率越高,当混合实体相似度大于设定阈值时,将其纳入该领域知识子图,遍历直至找不到满足阈值条件的实体终止。假设根节点周围相连的谓词集合为{pa,pb,pc,pd},对应的数量为{ns1,ns2,ns3,ns4},探查到的实体neii周围相连的谓词集合为{pa,pb,pc,pe},对应的数量为{ni1,ni2,ni3,ni4},则Jaccard相似度J为谓词集合交集个数除以谓词集合并集个数,即余弦相似度将其谓词对应的数量转为向量,neii对应的谓词向量分别为a=[ns1,ns2,ns3,ns4,0],b=[ni1,ni2,ni3,0,ni4],则余弦相似度cosθ为根据谓词的Jaccard相似度和余弦相似度,利用判断公式可以判断实体是否划入子图,判断公式如下:1≥y2>y1≥0,1≥x≥0其中y1、y2为Jaccard相似度阈值,为余弦相似度阈值。步骤2:谓词的语义相似度计算针对步骤1生成的每个领域知识子图Oi,将其构建成TransE的输入数据,利用随机梯度下降法调整其向量表示最小化TransE的目标函数,以获取所有实体与谓词的语义向量,形成模型Mi。接着加载模型Mi,对领域知识子图Oi中每一个谓词计算其与其它谓词在模型中语义向量的距离,通过取负再归一化得到谓词之间的语义相似度值。最终,任意两个谓词间都将具有一个唯一的语义相似度值,可在后续查询中使用。步骤3:语义敏感的Top-k近似查询步骤3.1:待查领域知识子图的选取用户给定一个查询图,通过一组明确的实体和谓词来查询所有符合某类型约束的未知实体。根据用户指定的期望返回的实体类型t选取领域知识子图Ot,根据用户指定的关系谓词p选取该谓词与领域知识子图Ot中其他谓词的语义相似度,维持一个对应关系谓词p的谓词语义相似度表S,作为领域知识子图Ot中实体与实体之间边的权重,将用户指定的实体作为查询的起始点estart。若用户指定多个实体及其不同的关系谓词,则维持不同起始点对应不同谓词语义相似度表,后续的查询使用多线程的方式,每一线程使用不同的起始点和谓词语义相似度表进行探查。步骤3.2:语义敏感的路径探查首先,需要创建一个优先级队列PQ用来存放需要向外遍历的实体及起始点到该实体经过的实体集合,即起始点到达该实体的路径,同时将用户指定的实体作为起始点estart放入优先级队列PQ中,优先级为1,路径为{estart}。接着不断的从优先级队列PQ取出队列中的元素,假设取出的元素代表的实体为e,路径代表的实体集合为Path,循环遍历完e的邻居实体enb,新建实体集合NewPath,添加实体集合Path中的元素,并添加邻居实体enb,若邻居实体enb类型符合用户指定返回的实体类型t,则将邻居实体enb和集合NewPath添加到结果集合F中,否则利用路径选择收益模型衡量经过邻居实体enb的路径,能够找到最优答案的代价f,将邻居实体enb和集合NewPath放入优先级队列PQ当中,代价f作为其在队列中的优先级。不断迭代直到优先级队列PQ中没有任何元素或者结果集F的元素个数达到用户指定的Top-k个数n结束。其中路径选择收益模型计算代价f的公式为:其中,v为遍历到的实体,u为起始点,l为起始点到遍历到的实体的路径长度,si为第i条路径上的谓词在谓词相似度表S中的相似度,为起始点到遍历到的实体路径上的谓词相似度的乘积,m(v)为该实体的最大出度,k为大于l的常数,因此k只需要取大于领域知识子图最大深度的值即可。以上步骤3.2为单线程的方法,若用户指定多个实体及其不同的关系谓词,则其需要多线程,每个线程维持不同的起始点estart和谓词语义相似度表S,线程方法和单线程几乎一致,除了结束的判断需改为所有线程的结果集F的交集的元素达到用户指定的Top-k个数n。本专利技术的有益效果:本专利技术通过利用TransE方法训练出谓词的语义相似度,将语义嵌入到查询图中,利用语义敏感的路径探查方法,加快查询的收敛速度,能根据用户的查询需求快速的给出精准的语义近似查询结果。附图说明图1为本专利技术的流程图。具体实施方式为了使本专利技术的内容、特点阐述的更加清晰明白,下面结合附图1做出详细的介绍。步骤1:领域知识子图的划分本专利技术使用的RDF知识图谱数据来源于DBpedia知识库,由于其包含多个类型的数据,所以将完整的数据进行TransE训练,需要消耗大量时间,本文档来自技高网...

【技术保护点】
1.一种语义敏感的RDF知识图谱近似查询方法,该方法包含如下步骤:步骤1:领域知识子图划分步骤1.1:领域知识子图划分的初始化根据RDF知识图谱O中实体的类型,将属于一个领域知识的所有相关实体汇集成领域知识子图,得到O1、O2……On,其中Oi∈O,i=1,2,3…n,领域知识子图Oi中都包含了相同类型实体集合Ei,其中Ei∈E,对于领域知识子图Oi中的每个实体

【技术特征摘要】
1.一种语义敏感的RDF知识图谱近似查询方法,该方法包含如下步骤:步骤1:领域知识子图划分步骤1.1:领域知识子图划分的初始化根据RDF知识图谱O中实体的类型,将属于一个领域知识的所有相关实体汇集成领域知识子图,得到O1、O2……On,其中Oi∈O,i=1,2,3…n,领域知识子图Oi中都包含了相同类型实体集合Ei,其中Ei∈E,对于领域知识子图Oi中的每个实体都有步骤1.2:领域知识子图划分的完善针对步骤1.1中的领域知识子图Oi中的实体集合Ei,逐个遍历实体完善领域知识子图的划分:a)将实体作为根节点通过广度优先遍历方法在RDF知识图谱O中向外遍历;b)对探查到的每个实体,考虑该实体和根节点周围谓词的分布,据此进行基于Jaccard和余弦相似度相结合的混合实体相似度计算;当混合实体相似度大于设定阈值时,将其纳入该领域知识子图,遍历直至找不到满足阈值条件的实体终止;最终得到与领域知识相关的实体构成的领域知识子图,完成领域知识子图的划分;步骤2:谓词的语义相似度计算针对步骤1生成的每个领域知识子图Oi,将其构建成TransE的输入数据,利用随机梯度下降法调整其向量表示最小化TransE的目标函数,以获取所有实体与谓词的语义向量,形成模型Mi;接着加载模型Mi,对领域知识子图Oi中每一个谓词计算其与其它谓词在模型中语义向量的距离,通过取负再归一化得到谓词之间的语义相似度值;最终,任意两个谓词间都将具有一个唯一的语义相似度值,可在后续查询中使用;步骤3:语义敏感的Top-k近似查询,这个阶段具体包含如下步骤:步骤3.1:待查领域知识子图的选取用户给定一个查询图,通过一组明确的实体和谓词来查询所有符合某类型约束的未知实体;根据用户指定的期望返回的实体类型t选取领域知识子图Ot,根据用户指定的关系谓词p选取该谓词与领域知识子图Ot中其他谓词的语义相似度,维持一个对应关系谓词p的谓词语义相似度表S,作为领域知识子图Ot中实体与实体之间边的权重,将用户指定的实体作为查询的起始点estart;若用户指定多个实体及其不同的关系谓词,则维持不同起始点对应不同谓词语义相似度表,后续的查询使用多线程的方式,每一线程使用不同的起始点和谓词语义相似度表进行探查...

【专利技术属性】
技术研发人员:徐小良颜海江王宇翔何宏夏一行
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1