当前位置: 首页 > 专利查询>东南大学专利>正文

RDF数据上基于图匹配的why‑not查询回答方法技术

技术编号:16269995 阅读:193 留言:0更新日期:2017-09-22 21:40
本发明专利技术公开了一种RDF数据上基于图匹配的why‑not查询回答方法,包括如下步骤:(1)离线数据结构处理;(2)将why‑not问题中的关键字映射到RDF数据上的实体;(3)从候选实体出发,构造一个局部图;(4)查询分解;(5)图匹配;(6)生成why‑not问题的解释。本发明专利技术的有益效果为:本发明专利技术采用的方法可以更好、更高效的确定导致用户感兴趣的项被筛选掉的原因,并且给出相应的比较具体的修改意见,方便用户更好的去探索用户期望得到的结果,通常可以让用户更加满意。

【技术实现步骤摘要】
RDF数据上基于图匹配的why-not查询回答方法
本专利技术涉及计算机
,尤其是一种RDF数据上基于图匹配的why-not查询回答方法。
技术介绍
近年来,大量的RDF数据开始以开放链接数据的形式被发布到互联网上,并且形成了很多开放链接知识库或者垂直领域知识库,比如Freebase、Yago、DBpedia、ConceptNet等等。这些知识库逐渐被集成到一些现实生活中的应用场景里面,比如搜索引擎或者查询回答系统,从而更好的服务于用户。为了使得用户可以更直接、方便的去获取知识,基于知识库的查询回答系统开始扮演重要的角色。一些基于RDF数据的查询回答系统,比如Auqlog、FREyA、NLP-Reduce等,使得用户不需要了解底层知识库的词汇或者模式信息,也可以满足他们任意复杂的信息需求。对于基于知识库的查询回答系统,其底层的数据通常是从web上进行信息抽取,然后将数据组织成RDF三元组或者其他形式的知识单元存放在知识库中。然而信息抽取通常不是完全精准的,在信息抽取的过程中,通常会因为信息源的不可靠或者抽取方法的局限性导致一些错误信息蔓延到数据库中,导致数据本身的准确性有所下降。因而当用户通过查询回答系统来获取问题的答案时,系统可能返回给用户不正确的结果,在用户好奇心的驱使下,用户会自然而然的产生为什么用户想要的答案没有出现在结果集中这种问题,这种问题被称作为why-not问题。通常情况下,用户要解决这种问题,需要不断的更改自己的查询条件来对比不同的结果集,并分析用户期望的数据的相关信息,才能得出为什么用户期望的结果没有出现在结果集中的原因。然而在数据量的规模很大的情况下,以及用户输入受限时,并不是每次用户都能如愿分析出原因。此时,由系统根据用户的反馈来为用户计算出比较合理的解释便成为一种提高数据库可用性的需求。在解决RDF上的why-not问题方面,Yao等人给出了一种解决方案,该方法通过一种简单的不断试错的方式来找到用户查询中导致答案缺失的关系或者概念,并且使用一些启发式规则进行泛化来修正查询。该方法对应的系统ANNA由于需要遍历各种情形进行试错,计算解释的效率不高,而且通过泛化得到的结果在大部分情况下并不能给出用户一种细粒度的解释。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种RDF数据上基于图匹配的why-not查询回答方法,为用户提供一种合理的解释,指导用户更好的完善和明确查询需求,更快的获取自己期望的结果。为解决上述技术问题,本专利技术提供一种RDF数据上基于图匹配的why-not查询回答方法,包括如下步骤;(1)离线数据结构处理;该步骤对RDF数据进行数据结构上的预处理,包括三个方面:一是使用Jena对RDF数据进行本地持久化存储,二是使用Lucene对知识库中所有实体的标签建立倒排索引,三是训练一个word2vec模型为知识库中的每个实体和关系生成一个向量;(2)将why-not问题中的关键字映射到RDF数据上的实体;对于用户提出的why-not问题,得到用户所感兴趣的项的关键字,然后从步骤(1)所建立的索引库中检索该关键字对应的实体,从而将关键字映射到知识库上的实体上去,得到一个候选实体集合;(3)从候选实体出发,构造一个局部图;通过在步骤(1)中所建立的持久化数据库上查询候选实体所关联的边和实体以及属性和值信息,并对关联的实体进行扩展,得到一个从候选实体出发,深度为某个固定值的局部图;(4)查询分解;将用户查询分解成若干个具有星型结构的查询子模式;(5)图匹配;对于从步骤(4)得到的每一个查询子模式,从局部图中候选实体对应的顶点出发,生成若干个以候选实体为顶点,边数等于查询子模式的边数的星型结构的子实例图的集合,然后进行查询子模式和子实例图之间的匹配,计算其相似度;之后将匹配的子实例图中的叶子节点进行扩展,生成新的星形结构的子实例图并加入到子实例图集合中,用于后续查询子模式的匹配;最终为每一个查询子模式计算得到一个匹配的子实例图,将这些模式图进行合并生成一个与用户查询具有最高全局相似度的实例图;(6)生成why-not问题的解释;根据步骤(5)得到若干从候选实体出发且和用户查询相似的实例图,选取与用户查询最相似的实例图,并将其中的实体结点替换为查询中对应的变量结点;对比该实例图和用户查询中的每一个结点和边的标签信息,即可得到两个图的差异之处,这种差异即可用于解释用户的why-not问题。优选的,步骤(4)中RDF数据上基于图匹配的why-not查询回答方法将用户查询分解成若干个具有星型结构的查询子模式的具体实现方法为:找到候选实体在查询模式图中对应的变量结点,从该结点出发,生成一个星型结构的模式子图;然后将根结点相连的结点压入队列,从队列中弹出一个结点,若该结点不是查询模式图的叶子结点,则生成一个星型结构的子模式,否则继续弹出下一个结点直到队列为空。优选的,步骤(5)中RDF数据上基于图匹配的why-not查询回答方法采用一种综合考虑语义信息和结构信息的相似度计算方法,计算方法如下:在考虑语义信息方面,对于两个结点或者两条边之间的相似,若结点是知识库中的一对实例或者边是知识库中的一对关系,则通过计算其对应的向量之间的余弦距离来表征语义相似度,否则采用编辑距离计算相似度;在考虑结构信息方面,如果节点是一个类结点,或者边的标签是type信息,则采用最小公共父结点LCA方法来计算其结构上的相似度,否则,采用Jaccard距离计算公式计算图之间的结构相似度。优选的,步骤(6)中RDF数据上基于图匹配的why-not查询回答方法在选取与用户查询最相似的实例图的时候,通过为每一个候选实体生成若干和用户查询匹配的实例图,并选取和用户查询具有最高全局相似度的实例图完成。本专利技术的有益效果为:ANNA是一个基于DBpedia知识库的查询回答系统,该系统提供了对用户提出的why-not问题的解释功能。该系统在回答用户why-not问题时采用了一种试错的方法,即通过遍历用户查询中的每一个条件,判断去除该条件之后,查询的结果集中是否包含用户感兴趣的结果,从而确定是哪个条件导致把用户感兴趣的项排除在结果集外面,然后采用一种启发式规则将该条件中的成分替换成变量,使得替换之后的查询的结果集里面可以包含用户感兴趣的项。这种方法的思想比较直观简单,但是给出的解释通常粒度比较粗,只能表明是查询中哪个条件出错了,无法给出修改意见,不能够很好的满足用户的信息需求,而且由于不断的试错,当用户查询比较复杂的时候,系统的效率比较低下。相对于该方法,我们采用的方法可以更好,更高效的确定导致用户感兴趣的项被筛选掉的原因,并且给出相应的比较具体的修改意见,方便用户更好的去探索用户期望得到的结果,通常可以让用户更加满意。附图说明图1是本专利技术实施例中所涉及的RDF数据。图2是本专利技术实施例中用户查询的SPARQL形式及对应的查询图。图3是本专利技术实施例中从索引库中检索某个关键字对应的实体。图4是从图1的RDF数据中生成的某个实例的局部图。图5是本专利技术一个查询分解的实例。图6是本专利技术从局部图中的实例出发生成子实例图。图7是本专利技术图匹配和相似度计算的过程图。图8是本专利技术根据匹配得到的子实例图合并生成和相似查询。具体实施方式一种RD本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710285751.html" title="RDF数据上基于图匹配的why‑not查询回答方法原文来自X技术">RDF数据上基于图匹配的why‑not查询回答方法</a>

【技术保护点】
一种RDF数据上基于图匹配的why‑not查询回答方法,其特征在于,包括如下步骤:(1)离线数据结构处理;该步骤对RDF数据进行数据结构上的预处理,包括三个方面:一是使用Jena对RDF数据进行本地持久化存储,二是使用Lucene对知识库中所有实体的标签建立倒排索引,三是训练一个word2vec模型为知识库中的每个实体和关系生成一个向量;(2)将why‑not问题中的关键字映射到RDF数据上的实体;对于用户提出的why‑not问题,得到用户所感兴趣的项的关键字,然后从步骤(1)所建立的索引库中检索该关键字对应的实体,从而将关键字映射到知识库上的实体上去,得到一个候选实体集合;(3)从候选实体出发,构造一个局部图;通过在步骤(1)中所建立的持久化数据库上查询候选实体所关联的边和实体以及属性和值信息,并对关联的实体进行扩展,得到一个从候选实体出发,深度为某个固定值的局部图;(4)查询分解;将用户查询分解成若干个具有星型结构的查询子模式;(5)图匹配;对于从步骤(4)得到的每一个查询子模式,从局部图中候选实体对应的顶点出发,生成若干个以候选实体为顶点,边数等于查询子模式的边数的星型结构的子实例图的集合,然后进行查询子模式和子实例图之间的匹配,计算其相似度;之后将匹配的子实例图中的叶子节点进行扩展,生成新的星形结构的子实例图并加入到子实例图集合中,用于后续查询子模式的匹配;最终为每一个查询子模式计算得到一个匹配的子实例图,将这些模式图进行合并生成一个与用户查询具有最高全局相似度的实例图;(6)生成why‑not问题的解释;根据步骤(5)得到若干从候选实体出发且和用户查询相似的实例图,选取与用户查询最相似的实例图,并将其中的实体结点替换为查询中对应的变量结点;对比该实例图和用户查询中的每一个结点和边的标签信息,即可得到两个图的差异之处,这种差异即可用于解释用户的why‑not问题。...

【技术特征摘要】
1.一种RDF数据上基于图匹配的why-not查询回答方法,其特征在于,包括如下步骤:(1)离线数据结构处理;该步骤对RDF数据进行数据结构上的预处理,包括三个方面:一是使用Jena对RDF数据进行本地持久化存储,二是使用Lucene对知识库中所有实体的标签建立倒排索引,三是训练一个word2vec模型为知识库中的每个实体和关系生成一个向量;(2)将why-not问题中的关键字映射到RDF数据上的实体;对于用户提出的why-not问题,得到用户所感兴趣的项的关键字,然后从步骤(1)所建立的索引库中检索该关键字对应的实体,从而将关键字映射到知识库上的实体上去,得到一个候选实体集合;(3)从候选实体出发,构造一个局部图;通过在步骤(1)中所建立的持久化数据库上查询候选实体所关联的边和实体以及属性和值信息,并对关联的实体进行扩展,得到一个从候选实体出发,深度为某个固定值的局部图;(4)查询分解;将用户查询分解成若干个具有星型结构的查询子模式;(5)图匹配;对于从步骤(4)得到的每一个查询子模式,从局部图中候选实体对应的顶点出发,生成若干个以候选实体为顶点,边数等于查询子模式的边数的星型结构的子实例图的集合,然后进行查询子模式和子实例图之间的匹配,计算其相似度;之后将匹配的子实例图中的叶子节点进行扩展,生成新的星形结构的子实例图并加入到子实例图集合中,用于后续查询子模式的匹配;最终为每一个查询子模式计算得到一个匹配的子实例图,将这些模式图进行合并生成一个与用户查询具有最高全局相似度的实例图;(6)生成why-not问题的解释;根据步骤(5)得到若干从候选实体出发且和用户查询相似的实例图,选取与用户查询最相似的实例图,并将其中的实体结点替换为查询中...

【专利技术属性】
技术研发人员:漆桂林黄超高桓
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1