一种基于知识库的查询分面生成方法技术

技术编号:13244403 阅读:41 留言:0更新日期:2016-05-15 04:47
本发明专利技术公开了一种基于知识库的查询分面生成方法,该方法包括如下步骤:1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;3)对每一个所述初始查询分面f进行扩展;4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准确率;利用扩展之后的初始查询分面f生成最终的查询分面。本发明专利技术使用知识库生成查询分面,可以有效解决现有方法依赖于检索结果的局限性。通过利用知识库中高质量的信息对初始分面进行扩展,检索结果中没有出现或未被抽取的分面词项可以被准确定位,从而提高查询分面的准确性和覆盖率。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
据中国互联网络信息中心(CNNIC)发布的《2013年中国网民搜索行为研究报告》显 示,截至2013年6月底,中国搜索引擎网民规模为4.70亿,中国手机搜索网民数达3.24亿。在 过去半年中使用过综合搜索引擎的网民比例达98%,可见,在互联网时代,搜索引擎是人们 进入网络的主要入口,是获取网络信息的主要来源。 目前综合搜索引擎主要以相关文档列表的形式展示搜索结果,并按照文档的相关 性由高到低排序,对于简单的、导航性的搜素,如搜索"淘宝官网",这种方式能够满足需求, 但对于复杂的、信息丰富的、探索式的搜索,这种展现形式就显得过于单薄,用户需要在返 回的成千上万的结果中寻找、总结所需的信息,效率底下。某些情况下,用户的搜索意图是 模糊的,很难准确地通过一两个词表达,例如搜索相关领域的知识等;另外,用户的搜索是 可能是探索式的,需要搜索引擎分门别类地组织好相关内容,方便用户一步一步找到自己 想要的信息,例如购物网站中的搜索会对商品的品牌、样式、大小等给出对应的限制。对于 前者,目前的主要做法是搜索建议,用户在搜索框输入内容时,搜索引擎会根据以往积累的 搜索日志提示用户可能的搜索语句;对于后一种情况,目前应用的范围主要是商品、酒店等 垂直领域。对于上面问题,查询分面是一个有效的解决途径。查询分面可以看作是对查询从 不同角度做出的总结和归纳,例如查询"王菲"的分面有:她的著名歌曲、专辑、好友、获得的 奖项等。查询分面是对用户查询意图的扩展,是对潜在的查询信息的总结,不仅可以方便用 户明确搜索意图,还能提示用户相关内容,以便用户进行探索式搜索。 目前,查询分面的挖掘方法主要依赖于搜索引擎返回的文档集合,利用人工定义 的多种并列模式,抽取文档中并列出现的词项列表,并通过聚类、排序等过程,生成最终查 询分面。在此基础上,另外一种方案是利用监督学习,分别训练两个模型,用于判断一个词 项是否属于查询分面以及两个词项是否属于同一个查询分面。以上两种方法虽然取得了不 错的效果,但是结果的精确性和准确性会受到文档质量的影响。首先,如果检索结果文档 集中不包含某些分面或词项,现有方法无从抽取;其次,即便检索结果中包含相应分面,由 于并非以列表形式展现,现有的抽取模式并不能准确识别;最后,抽取的并列列表可能包含 杂质项,现有做法并不能高效地过滤掉所有杂质。 因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术的目的在于提供一种基于知识库的查询分面 生成方法,本申请使用知识库生成查询分面,可以有效解决现有方法依赖于检索结果的局 限性。通过利用知识库中高质量的信息对初始分面进行扩展,检索结果中没有出现或未被 抽取的分面词项可以被准确定位,从而提高查询分面的准确性和覆盖率。 本专利技术的目的是通过以下技术方案来实现的: -种基于知识库的查询分面生成方法,所述方法包括如下步骤: 1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D; 2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成 集合F; 3)对每一个所述初始查询分面f进行扩展; 4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准 确率;利用扩展之后的初始查询分面f生成最终的查询分面。进一步,所述步骤2)中基于QDMiner算法获取一系列初始查询分面f的方法具体 为: a.列表抽取:使用文本、HTML标签、重复区域多个模式,从所述查询结果集合D中抽 取原始列表; b.列表赋权:基于tf-idf思想,对每个所述原始列表的重要性做出评估; c.列表聚类:使用WQT方法将相似的列表聚在一起形成查询分面; d.查询分面和词项排序:计算不同查询分面及分面内词项的重要性,排序并输出 最终结果,即获得一系列所述初始查询分面f。 进一步,所述步骤3)中对每一个所述初始查询分面f进行扩展的方法具体为:首先 将搜索引擎的查询分为两种:实体级查询和非实体级查询;对于实体级查询,获得查询对应 的Freebase中的实体,并获取其属性;如果原分面和某一属性的重合度很高,则使用该属 性作为原分面的扩展;如果找不到这样的属性,则转到非实体级查询;对于非实体级查询, 基于tf-idf的思想找到Freebase中包含原分面的最小的类型,并利用Freebase找到原分面 中不同词项共有的、与查询相关的属性,用这样的属性对类型做进一步的限制,返回被限制 的类型所包含的实体作为原分面的扩展。 进一步,所述获得查询对应的Freebase中的实体的具体方法为:使用Freebase的 Search API搜索查询对应的实体,Search API主要使用实体的名字、同义词匹配查询字符 串;然后对返回的实体进行过滤。 进一步,所述对返回的实体进行过滤的方法为:对于Search API的查询Q,返回N个 实体[E1J2,对于其中的实体E,对所有同义词和查询Q进行分词(切分)处理,计算E 的所有的同义词和查询Q的最大公共词串占原串的比例,取所有同义词中比例的最大值作 为E和Q的词串相似度得分StrSim;如果该得分小于阈值R strsim,则将E过滤掉;公式为:其中Alias(E)是实体E的所有同义词集合,Ien表示词串的长度;阈值Rstrsim随着查 询Q的长度变化而变化,LCS( Q,a)计算查询Q和同义词a的最大公共词串长度:其中pow(x,y)计算的是X的y次方。进一步,所述步骤3)中对每一个所述初始查询分面f进行扩展的方法具体为:首先 找到包含原分面f的若干个类型,利用tf-idf的方法进行打分,选出得分最高的类型,用 Search API找到分面f中所有词项对应的实体,在这些实体的所有属性中找到公共的、和原 始查询相关的属性对类型加以限制,用返回限制后的类型的所有实体,作为对原分面的扩 展。本专利技术具有以下积极的技术效果: 一、利用知识库生成查询分面 本文提出同时利用知识库与检索结果生成查询分面,既可以利用知识库中高质 量、全面的信息,同时借助检索结果抓住用户的兴趣和关注点。 二、利用知识库确定查询与查询分面之间的关联 对于实体查询,实体的属性可以用来和查询分面进行匹配,从而确定查询与查询 分面之间的关系,保证扩展的准确性;对于一般查询,我们利用"类型+限制"的方式限定查 询的范围,同样保证了扩展的精度。三、利用知识库构建多层关系网络 本文方法不仅仅考虑Freebase中每个实体的一层属性(谓词),同时还可以考虑二 层,甚至多层属性,从而能够刻画更复杂的关系。【附图说明】图1是实体的三层结构示意图;图2是"冯小刚"的三层结构示意图; 图3是2层属性网的树形结构示意图; 图4是查询分面的类型图; 图5是部分2层属性网的结构示意图。【具体实施方式】下面结合附图对本申请作进一步的说明。 本申请提供了,该方法包括如下步骤: 1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D; 2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分当前第1页1 2 3 4 本文档来自技高网
...

【技术保护点】
一种基于知识库的查询分面生成方法,其特征在于,所述方法包括如下步骤:1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;3)对每一个所述初始查询分面f进行扩展;4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准确率;利用扩展之后的初始查询分面f生成最终的查询分面。

【技术特征摘要】

【专利技术属性】
技术研发人员:窦志成文继荣江政宝
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1