RDF数据上基于图匹配的why‑not查询回答方法技术

技术编号：16269995 阅读：193 留言：0更新日期：2017-09-22 21:40

本发明专利技术公开了一种RDF数据上基于图匹配的why‑not查询回答方法，包括如下步骤：(1)离线数据结构处理；(2)将why‑not问题中的关键字映射到RDF数据上的实体；(3)从候选实体出发，构造一个局部图；(4)查询分解；(5)图匹配；(6)生成why‑not问题的解释。本发明专利技术的有益效果为：本发明专利技术采用的方法可以更好、更高效的确定导致用户感兴趣的项被筛选掉的原因，并且给出相应的比较具体的修改意见，方便用户更好的去探索用户期望得到的结果，通常可以让用户更加满意。

全部详细技术资料下载

【技术实现步骤摘要】
RDF数据上基于图匹配的why-not查询回答方法
本专利技术涉及计算机
，尤其是一种RDF数据上基于图匹配的why-not查询回答方法。
技术介绍
近年来，大量的RDF数据开始以开放链接数据的形式被发布到互联网上，并且形成了很多开放链接知识库或者垂直领域知识库，比如Freebase、Yago、DBpedia、ConceptNet等等。这些知识库逐渐被集成到一些现实生活中的应用场景里面，比如搜索引擎或者查询回答系统，从而更好的服务于用户。为了使得用户可以更直接、方便的去获取知识，基于知识库的查询回答系统开始扮演重要的角色。一些基于RDF数据的查询回答系统，比如Auqlog、FREyA、NLP-Reduce等，使得用户不需要了解底层知识库的词汇或者模式信息，也可以满足他们任意复杂的信息需求。对于基于知识库的查询回答系统，其底层的数据通常是从web上进行信息抽取，然后将数据组织成RDF三元组或者其他形式的知识单元存放在知识库中。然而信息抽取通常不是完全精准的，在信息抽取的过程中，通常会因为信息源的不可靠或者抽取方法的局限性导致一些错误信息蔓延到数据库中，导致数据本身的准确性有所下降。因而当用户通过查询回答系统来获取问题的答案时，系统可能返回给用户不正确的结果，在用户好奇心的驱使下，用户会自然而然的产生为什么用户想要的答案没有出现在结果集中这种问题，这种问题被称作为why-not问题。通常情况下，用户要解决这种问题，需要不断的更改自己的查询条件来对比不同的结果集，并分析用户期望的数据的相关信息，才能得出为什么用户期望的结果没有出现在结果集中的原因。然而在数...
<a href="http://www.xjishu.com/zhuanli/55/201710285751.html" title="RDF数据上基于图匹配的why‑not查询回答方法原文来自X技术">RDF数据上基于图匹配的why‑not查询回答方法</a>

【技术保护点】
一种RDF数据上基于图匹配的why‑not查询回答方法，其特征在于，包括如下步骤：(1)离线数据结构处理；该步骤对RDF数据进行数据结构上的预处理，包括三个方面：一是使用Jena对RDF数据进行本地持久化存储，二是使用Lucene对知识库中所有实体的标签建立倒排索引，三是训练一个word2vec模型为知识库中的每个实体和关系生成一个向量；(2)将why‑not问题中的关键字映射到RDF数据上的实体；对于用户提出的why‑not问题，得到用户所感兴趣的项的关键字，然后从步骤(1)所建立的索引库中检索该关键字对应的实体，从而将关键字映射到知识库上的实体上去，得到一个候选实体集合；(3)从候选实体出发，构造一个局部图；通过在步骤(1)中所建立的持久化数据库上查询候选实体所关联的边和实体以及属性和值信息，并对关联的实体进行扩展，得到一个从候选实体出发，深度为某个固定值的局部图；(4)查询分解；将用户查询分解成若干个具有星型结构的查询子模式；(5)图匹配；对于从步骤(4)得到的每一个查询子模式，从局部图中候选实体对应的顶点出发，生成若干个以候选实体为顶点，边数等于查询子模式的边数的星型结构的子实...

【技术特征摘要】
1.一种RDF数据上基于图匹配的why-not查询回答方法，其特征在于，包括如下步骤：(1)离线数据结构处理；该步骤对RDF数据进行数据结构上的预处理，包括三个方面：一是使用Jena对RDF数据进行本地持久化存储，二是使用Lucene对知识库中所有实体的标签建立倒排索引，三是训练一个word2vec模型为知识库中的每个实体和关系生成一个向量；(2)将why-not问题中的关键字映射到RDF数据上的实体；对于用户提出的why-not问题，得到用户所感兴趣的项的关键字，然后从步骤(1)所建立的索引库中检索该关键字对应的实体，从而将关键字映射到知识库上的实体上去，得到一个候选实体集合；(3)从候选实体出发，构造一个局部图；通过在步骤(1)中所建立的持久化数据库上查询候选实体所关联的边和实体以及属性和值信息，并对关联的实体进行扩展，得到一个从候选实体出发，深度为某个固定值的局部图；(4)查询分解；将用户查询分解成若干个具有星型结构的查询子模式；(5)图匹配；对于从步骤(4)得到的每一个查询子模式，从局部图中候选实体对应的顶点出发，生成若干个以候选实体为顶点，边数等于查询子模式的边数的星型结构的子实例图的集合，然后进行查询子模式和子实例图之间的匹配，计算其相似度；之后将匹配的子实例图中的叶子节点进行扩展，生成新的星形结构的子实例图并加入到子实例图集合中，用于后续查询子模式的匹配；最终为每一个查询子模式计算得到一个匹配的子实例图，将这些模式图进行合并生成一个与用户查询具有最高全局相似度的实例图；(6)生成why-not问题的解释；根据步骤(5)得到若干从候选实体出发且和用户查询相似的实例图，选取与用户查询最相似的实例图，并将其中的实体结点替换为查询中...

【专利技术属性】
技术研发人员：漆桂林，黄超，高桓，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人