一种面向会话式实体搜索的查询扩展方法技术

技术编号:17779838 阅读:31 留言:0更新日期:2018-04-22 08:24
本发明专利技术公开一种面向会话式实体搜索的查询扩展方法,包括:对维基百科文档集预处理得到数据集D;遍历数据集D中每个文档d,得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;抽取WordNet中的语义信息和YAGO3中的实体相关信息;根据历史查询结果构建历史结果缓存队列L;根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用语义信息和实体相关信息对L中的历史结果进行分析获取历史反馈Qh;基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;利用R更新缓存队列L。本发明专利技术在减少查询开销的同时缩短查询流程。

【技术实现步骤摘要】
一种面向会话式实体搜索的查询扩展方法
本专利技术涉及实体搜索领域,更具体地,涉及一种面向会话式实体搜索的查询扩展方法。
技术介绍
会话式实体搜索就是通过用户交互的多轮查询方式对Web数据中主题相关的实体对象(如人、组织和地点等)及相应属性进行快速、准确的检索。相比传统实体搜索,会话式实体搜索会将用户意图分解为一系列查询,每轮查询中用户都会根据历史查询的结果提出新的查询或是修改原始查询。在此情形下,单轮查询描述的信息一般都是不完整的,同时查询的不断演进也可能使会话内容偏离目标主题,因此如何理解用户每轮查询的意图、缩短查询流程并保证会话主题的一致性是会话式实体搜索所要解决的关键问题。目前对于理解用户的查询意图,传统实体搜索普遍采用查询扩展方法,该方法利用信息论、数据挖掘等技术从不同的信息源中获取查询相关的扩展项并结合原始查询生成新的查询,通过新的查询得到更多相关的结果。当前,面向传统实体搜索的查询扩展方法利用的信息源主要来自于两方面,一方面为初始查询的结果,对应基于伪相关反馈的查询扩展方法;另一方面则是知识库中的相关结果,对应基于外部语料库的查询扩展方法,这两种查询扩展方法在会话式实体搜索中均存在局限性。会话式实体搜索中多轮查询间存在显著的关联,历史查询结果对于本轮查询的影响较大,上述的查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询,因而不能全面地理解用户意图、产生单轮查询漂移,进而影响用户后续的查询、延长查询流程,同时也无法保证会话主题的一致性,降低了会话式实体搜索的效率。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于解决现有查询扩展方法均未考虑到历史因素的作用且主要针对的是一次性查询而不是会话式查询,因而不能全面地理解用户意图、产生单轮查询漂移,进而影响用户后续的查询、延长查询流程,同时也无法保证会话主题的一致性,降低了会话式实体搜索的效率的技术问题。为实现上述目的,本专利技术提供一种面向会话式实体搜索的查询扩展方法,包括以下步骤:(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;(4)根据历史查询结果构建历史结果缓存队列L;(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh;(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8);(8)本次会话查询结束。可选地,步骤(1)包含以下子步骤:(1-1)利用开源信息抽取工具将维基百科文档集中的文档划分为粒度更小、语义独立的上下文;(1-2)对上下文进行分词、词性标注,移除停用词然后进行命名实体识别,进一步利用Wikifier工具进行实体链接,得到包含关键字和实体标注的数据集D。可选地,步骤(2)包含以下子步骤:(2-1)读取文档d中的关键字和实体标注生成关键字id-文档id、实体id-文档id组合,相应地利用标注信息生成实体id-实体类t组合;(2-2)将关键字id-文档id、实体id-文档id组合分别插入Ik和Ie中,将实体id-实体类t组合插入IE中。可选地,步骤(3)包含以下子步骤:(3-1)抽取WordNet中的语义信息,包括:抽取WordNet中同义词及上下位词语义关系,分别建立关键字id到同义词集的映射和不同同义词集间的映射,对应的映射权重通过语义重合度和语义密度来度量;(3-2)抽取YAGO3中的实体相关信息,包括:提取YAGO3中的实体关联信息,建立实体id到实体id的关联。可选地,步骤(4)利用优先级队列对历史结果进行缓存,给定历史结果e的新鲜度f和当前得分s,优先级的计算公式如下:其中,Priority(e)表示历史结果e的优先级,f为时间跨度的logistic函数,fi(e)表示历史结果e在第i轮会话中的新鲜度,si(e)表示历史结果e在第i轮会话中的相关性得分,i表示会话轮次,n表示总会话轮数。可选地,步骤(5)包含以下子步骤:(5-1)计算扩展关系模型Mr,若支持文档集ds由输入实体ein、结果实体er、数据集D及扩展关系模型Mr的混合模型生成,则有:其中,logp(ds|Md)表示支持文档集ds在反馈文档模型Md下的相关性得分,W(w,d)表示词条w在文档d中的权重,p(w|ein)表示词条w与输入实体ein的相关性,p(w|er)表示词条w与结果实体er的相关性,p(w|Mr)表示在扩展关系模型Mr下生成词条w的概率,p(w|D)表示在当前数据集D下生成词条w的概率,α1、α2和β均表示[0,1]间的可调参数,通过期望最大化算法对公式中扩展关系模型Mr进行有效估计;(5-2)从Mr中选取前p项作为伪相关反馈QPRF;(5-3)计算L中历史结果与输入实体的语义相关性,考虑历史结果与输入实体间是否存在映射关系,给定指示器函数I(ein,er)表示输入实体ein与历史结果er间是否存在映射关系,w(ein,er)表示输入实体ein与历史结果er间的语义强度,则历史结果与输入实体的语义相关性Rsem(er)计算公式如下:其中,ek表示YAGO3中与输入实体ein存在关联的实体;(5-4)计算L中历史结果与输入实体的上下文相关性,考虑历史结果与输入实体共现的文档越多、历史结果与输入实体间的文本距离越小,两者之间越相关,给定输入实体ein、历史结果er在支持文档d中文本距离为Prox(ein,er,d),则输入实体与历史结果的上下文相关性Rtext(er)计算公式如下:其中,分别表示由支持文档d和本轮查询Q生成的词条向量,表示与间的余弦相似度;(5-5)基于输入实体与历史结果的语义相关性和输入实体与历史结果的上下文相关性,通过线性加权的方式计算历史结果er与本轮查询Q的相关性R(er),计算公式如下:R(er)=αRsem(er)+(1-α)Rtext(er)其中α为[0,1]间的加权系数;(5-6)根据相关性R(er)从L中选取前p项作为历史反馈Qh。可选地,步骤(6)包括:对本轮查询Q、伪相关反馈QPRF和历史反馈Qh进行线性加权生成扩展查询QE,再次检索后利用步骤(5-4)中输入实体与历史结果的上下文相关性计算公式进行排序得到最终结果集R。可选地,步骤(7)是根据R和步骤(4)给出的优先级计算公式重新计算优先级并对L进行更新。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有以下有益效果:(1)本专利技术引入历史结果作为信息源并实现了一种基于历史反馈的查询扩展方法,该方法充分考虑了会话式实体搜索中各轮查询间的相关性,能够更加全面地理解用户意图、避免单轮查询漂移。(2)本专利技术以维基百科文档集和外部知识库WordNet、YAGO3为指导对历史结果进行相关性分析,并引入时间因素来计算其在查询扩展过程中的优先级,在减少查本文档来自技高网...
一种面向会话式实体搜索的查询扩展方法

【技术保护点】
一种面向会话式实体搜索的查询扩展方法,其特征在于,包括以下步骤:(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;(4)根据历史查询结果构建历史结果缓存队列L;(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh;(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8);(8)本次会话查询结束。

【技术特征摘要】
1.一种面向会话式实体搜索的查询扩展方法,其特征在于,包括以下步骤:(1)对维基百科文档集预处理得到包含关键字和实体注释的数据集D;(2)遍历数据集D中每个文档d,对d中包含的关键字和实体进行索引,最终得到关键字倒排索引Ik、实体倒排索引Ie以及实体类映射IE;(3)抽取WordNet中的语义信息和YAGO3中的实体相关信息;(4)根据历史查询结果构建历史结果缓存队列L;(5)根据用户本轮查询Q对Ik、Ie和IE进行检索获取伪相关反馈QPRF,利用步骤(3)中获取的语义信息和实体相关信息对L中的历史结果进行相关性分析获取历史反馈Qh;(6)基于本轮查询Q、伪相关反馈QPRF和历史反馈Qh生成扩展查询QE,利用QE对Ik、Ie和IE进行重新检索和排序得到最终结果集R;(7)利用R更新缓存队列L,若用户提出下轮查询则转至步骤(5),否则进入步骤(8);(8)本次会话查询结束。2.根据权利要求1所述的查询扩展方法,其特征在于,步骤(1)包含以下子步骤:(1-1)利用开源信息抽取工具将维基百科文档集中的文档划分为粒度更小、语义独立的上下文;(1-2)对上下文进行分词、词性标注,移除停用词然后进行命名实体识别,进一步利用Wikifier工具进行实体链接,得到包含关键字和实体标注的数据集D。3.根据权利要求2所述的查询扩展方法,其特征在于,步骤(2)包含以下子步骤:(2-1)读取文档d中的关键字和实体标注生成关键字id-文档id、实体id-文档id组合,相应地利用标注信息生成实体id-实体类t组合;(2-2)将关键字id-文档id、实体id-文档id组合分别插入Ik和Ie中,将实体id-实体类t组合插入IE中。4.根据权利要求3所述的查询扩展方法,其特征在于,步骤(3)包含以下子步骤:(3-1)抽取WordNet中的语义信息,包括:抽取WordNet中同义词及上下位词语义关系,分别建立关键字id到同义词集的映射和不同同义词集间的映射,对应的映射权重通过语义重合度和语义密度来度量;(3-2)抽取YAGO3中的实体相关信息,包括:提取YAGO3中的实体关联信息,建立实体id到实体id的关联。5.根据权利要求1所述的查询扩展方法,其特征在于,步骤(4)利用优先级队列对历史结果进行缓存,给定历史结果e的新鲜度f和当前得分s,优先级的计算公式如下:其中,Priority(e)表示历史结果e的优先级,f为时间跨度的logistic函数,fi(e)表示历史结果e在第i轮会话中的新鲜度,si(e)表示历史结果e在第i轮会话中的相关性得分,i表示会话轮次,n表示总会话轮数。6.根据权利要求1所述的查询扩展方法,其特征在于,步骤(5)包含以下子步骤:(5-1)计算扩展关系模型Mr,若支持文档集ds由输入实体ein、结果实体er、数据集D及扩展关系模型Mr的混合模型生成,则有:

【专利技术属性】
技术研发人员:赵峰王沛肖洋金海
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1