一种语义敏感的RDF知识图谱近似查询方法技术

技术编号：21571793 阅读：34 留言：0更新日期：2019-07-10 15:28

本发明专利技术公开了一种语义敏感的RDF知识图谱近似查询方法,该方法包括以下步骤：将类型相同的RDF知识图谱实体归为一类作为划入领域知识子图，并将其作为根节点，通过根节点向外遍历实体，根据实体与根节点周围的谓词的分布计算混合实体相似度，同时选定合适的阈值，将混合实体相似度大于阈值的划入子图；利用TransE方法训练各个子图，获得子图谓词之间的语义相似度；将谓词相似度作为RDF知识图谱实体之间边的权重，并通过语义敏感的路径探查方法进行Top‑K近似查询，获取语义近似的路径和实体结果。本发明专利技术利用子图划分，克服了大规模知识图谱语义相似度时间复杂度高的问题，利用语义敏感的路径探查方法加快查询的收敛速度。

A Semantic Sensitive Approximate Query Method for RDF Knowledge Map

全部详细技术资料下载

【技术实现步骤摘要】
一种语义敏感的RDF知识图谱近似查询方法
本专利技术涉及知识图谱查询领域，具体涉及一种语义敏感的RDF知识图谱近似查询方法。
技术介绍
知识图谱是人工智能的基石,自从2012年由Google提出并成功应用到Google搜索引擎以来，受到人们越来越多的关注。知识图谱描述真实世界中存在的各种实体或概念及其关系,将其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。知识图谱可以通过资源性描述框架RDF进行表示，将知识图谱中的一条知识用一个三元组形式(主-谓-宾)表示，便于知识图谱的存储和处理。目前关于RDF知识图谱近似查询主要分为两类：(1)基于结构相似的查询：根据图的结构(图的连通度、最短路径、标签匹配等)制定近似查询方法来寻找查询目标。基于结构相似的查询仅根据图的结构进行查询，有较好的查询性能，但未考虑实体之间的语义关系。(2)基于语义相似的查询：在RDF知识图上支持语义的查询，通过与查询目标的语义进行比较，寻找语义相似的标签和实体，进而挖掘和扩展出语义等价的查询模式。基于语义相似的查询考虑到实体之间的语义关系，但通过语义来挖掘查询模式，算法复杂度高，在较短时间内只能寻找到简单的查询模式。综上所述，目前RDF知识图谱近似查询方法没有充分结合上述两种方法的查询优势。另外，针对实际应用中的大规模RDF知识图谱查询，需要研究相应的RDF知识图谱分解、压缩方法。
技术实现思路
本专利技术的目的在于克服上述已有方法的不足，提出一种语义敏感的RDF知识图谱近似查询方法。本专利技术先将RDF知识图谱划分为多个领域知识子图，在领域知识子图中融入语义信息，利用语...

【技术保护点】
1.一种语义敏感的RDF知识图谱近似查询方法，该方法包含如下步骤：步骤1：领域知识子图划分步骤1.1：领域知识子图划分的初始化根据RDF知识图谱O中实体的类型，将属于一个领域知识的所有相关实体汇集成领域知识子图，得到O1、O2……On，其中Oi∈O，i＝1，2，3…n，领域知识子图Oi中都包含了相同类型实体集合Ei，其中Ei∈E，对于领域知识子图Oi中的每个实体

【技术特征摘要】
1.一种语义敏感的RDF知识图谱近似查询方法，该方法包含如下步骤：步骤1：领域知识子图划分步骤1.1：领域知识子图划分的初始化根据RDF知识图谱O中实体的类型，将属于一个领域知识的所有相关实体汇集成领域知识子图，得到O1、O2……On，其中Oi∈O，i＝1，2，3…n，领域知识子图Oi中都包含了相同类型实体集合Ei，其中Ei∈E，对于领域知识子图Oi中的每个实体都有步骤1.2：领域知识子图划分的完善针对步骤1.1中的领域知识子图Oi中的实体集合Ei，逐个遍历实体完善领域知识子图的划分：a)将实体作为根节点通过广度优先遍历方法在RDF知识图谱O中向外遍历；b)对探查到的每个实体，考虑该实体和根节点周围谓词的分布，据此进行基于Jaccard和余弦相似度相结合的混合实体相似度计算；当混合实体相似度大于设定阈值时，将其纳入该领域知识子图，遍历直至找不到满足阈值条件的实体终止；最终得到与领域知识相关的实体构成的领域知识子图，完成领域知识子图的划分；步骤2：谓词的语义相似度计算针对步骤1生成的每个领域知识子图Oi，将其构建成TransE的输入数据，利用随机梯度下降法调整其向量表示最小化TransE的目标函数，以获取所有实体与谓词的语义向量，形成模型Mi；接着加载模型Mi，对领域知识子图Oi中每一个谓词计算其与其它谓词在模型中语义向量的距离，通过取负再归一化得到谓词之间的语义相似度值；最终，任意两个谓词间都将具有一个唯一的语义相似度值，可在后续查询中使用；步骤3：语义敏感的Top-k近似查询，这个阶段具体包含如下步骤：步骤3.1：待查领域知识子图的选取用户给定一个查询图，通过一组明确的实体和谓词来查询所有符合某类型约束的未知实体；根据用户指定的期望返回的实体类型t选取领域知识子图Ot，根据用户指定的关系谓词p选取该谓词与领域知识子图Ot中其他谓词的语义相似度，维持一个对应关系谓词p的谓词语义相似度表S，作为领域知识子图Ot中实体与实体之间边的权重，将用户指定的实体作为查询的起始点estart；若用户指定多个实体及其不同的关系谓词，则维持不同起始点对应不同谓词语义相似度表，后续的查询使用多线程的方式，每一线程使用不同的起始点和谓词语义相似度表进行探查...

【专利技术属性】
技术研发人员：徐小良，颜海江，王宇翔，何宏，夏一行，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人