当前位置: 首页 > 专利查询>北京大学专利>正文

检索方法和检索系统技术方案

技术编号:14399383 阅读:155 留言:0更新日期:2017-01-11 12:39
本发明专利技术提出了一种检索方法和一种检索系统,其中,所述方法包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。通过本发明专利技术的技术方案,使用户可以准确地在微博文档中检索得到目标检索结果,从而提高了准确率,同时还可以增强检索的鲁棒性。

【技术实现步骤摘要】

本专利技术涉及检索
,具体而言,涉及一种检索方法和检索系统
技术介绍
微博是一个基于用户关系的轻量级信息传播平台,用户可以广播并分享关于他的活动及状态信息。微博的流行带来了对微博文档进行检索的需求,用户也逐渐习惯对微博文档进行各种内容的搜索。与传统的Web检索不同,对微博文档的检索面临很大的挑战,首先,由于微博文档的长度限制,使微博检索面临着严峻的词汇不匹配问题。此外,由于同一个实体具有不同别名,因此,不同用户在对同一个实体进行检索时可能会采用与该实体对应的别名进行检索,例如实体“周杰伦”的别名有“周董、杰伦、伦宝”等,这样通过别名在微博文档中检索得到的目标检索结果也就不准确,而且检索的效率也不高,另一方面,微博文档本身中也包含有很多实体,这样都会使检索得到的目标检索结果不准确。因此,如何使用户可以准确地在微博文档中检索到目标检索结果,成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的技术方案,可以解决用户在微博文档中不能准确地检索得到目标检索结果的技术问题。有鉴于此,本专利技术的一方面提出了一种检索方法,包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。在该技术方案中,在使用查询语句对微博语料集合中的微博文档进行检索时,由于查询语句中包含有目标实体的别名,因此,通过识别查询语句中的目标实体可以有效地提高了检索效果,另外,通过对查询语句相应地原始查询模型进行扩展得到扩展查询模型,这样根据扩展查询模型对微博文档进行检索时,可以检索到大量的与查询语句相关的微博文档,即包括有用户感兴趣的信息,从而可以有效地避免了对微博文档的漏检,进而使对微博文档进行检索地更加全面,而且通过统计扩展查询模型和每条微博文档相应的微博文档语言模型之间的相似度来确定目标检索结果,从而使目标检索结果更加准确,同时还提高了检索的鲁棒性。因此,通过本技术方案,用户可以在微博文档中准确地检索得到目标检索结果,从而提高检索的准确率,其中,目标实体为查询语句中的关键词,例如查询语句为“周杰伦新电影”中的目标实体为“周杰伦”。在上述技术方案中,优选地,通过以下公式统计所述扩展查询模型与所述微博文档语言模型之间的所述相似度,并将相似度大于或等于预设相似度的目标微博文档作为所述目标检索结果:Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中,Score(Q,D)表示所述相似度,V表示所述微博文档语言模型中的所有实体,表示所述扩展查询模型,表示所述微博文档语言模型,表示所述目标实体在所述扩展查询模型中所占有的概率,表示所述目标实体在所述微博文档语言模型中所占有的概率。在该技术方案中,通过扩展后的扩展查询模型可以检索到大量的微博文档,但是在这大量的微博文档中可能包含有很多用户不太关注的信息或这些信息没有按照一定的优先次序进行排列,即用户不太关注的信息可能会排在用户非常关注的信息之前,因此,通过统计扩展查询模型与微博文档语言模型之间的相似度,并根据该相似度的高低确定目标检索结果,可以过滤掉很多不重要、关联性较小或用户不太关注的信息,因此,通过该技术方案,可以提高检索结果的匹配准确率,进一步提高目标检索结果的准确性,其中,上述公式为KL距离(Kullback-LeiblerDivergence,又称相对熵)的计算,其中,所有实体指微博文档语言模型中的每条微博文档中的所有的词,例如,微博文档语言模型中的某条微博文档为“周杰伦新电影太棒了”,则该条微博文档中的所有实体即为“周杰伦”,“新”、“电影”和“太棒了”,总之,实体就是代表我们通常意义上的词,目标实体就是用户想要查询的关键词如“周杰伦”。在上述技术方案中,优选地,根据下列公式计算得到所述扩展查询模型:p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中,表示所述扩展查询模型,表示所述原始查询模型,表示所述目标实体主题模型,表示所述目标实体在所述扩展查询模型中所占有的概率,表示所述目标实体在所述原始查询模型中所占有的概率,表示所述目标实体在所述目标实体模型中所占有的概率,所述α表示初始插值参数。在该技术方案中,由于原始查询模型对应的检索结果比较少,甚至还不包含用户需要检索的信息,因此,需要对原始查询模型进行扩展得到扩展查询模型,这样根据扩展查询模型对微博文档进行检索时,可以检索到大量的与查询语句相关的微博文档,即包括有用户感兴趣的信息,从而可以有效地避免了对微博文档的漏检,进而对微博文档进行检索地更加全面,进一步地提高了检索效果。在上述技术方案中,优选地,根据接收到的更新命令,按照以下公式更新所述α,以得到α′:α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中,w表示所述目标实体,E表示所述目标实体模型中的所有实体,Q表示所述查询语句中的所有实体,w1表示所述查询语句中的任一实体,IDF(w)表示所述目标实体在所述微博语料集合中的逆向文档频率、IDF(w1)表示所述任一实体在所述微博语料集合中的逆向文档频率。在该技术方案中,由于在不同的查询语句中同一个目标实体的重要程度是不一样的,且初始插值参数α会对和与目标实体相应的目标实体模型有一定的关系,因此,在对不同的查询语句进行检索时需要对初始插值参数α进行更新使其变为自适应的插值参数,并根据更新后的α′来确定扩展查询模型,从而使得扩展查询模型更加准确,其中,所有实体指微博文档语言模型中的每条微博文档中的所有的词,例如,微博文档语言模型中的某条微博文档为“周杰伦新电影太棒了”,则该条微博文档中的所有实体即为“周杰伦”,“新”、“电影”和“太棒了”,总之,实体就是代表我们通常意义上的词,目标实体就是用户想要查询的关键词如“周杰伦”。在上述技术方案中,优选地,当所述目标实体为多个时,根据每个所述目标实体在所述微博语料集合中的逆向文档频率和每个所述目标实体的所述目标实体主题模型,确定最终的实体主题模型,以使用所述最终的实体主题模型、所述原始查询模型和与所述微博文档语言模型来创建所述扩展查询模型。在该技术方案中,当查询语句中具有多个目标实体时,根据每个目标实体的目标实体主题模型和每个目标实体在所述微博语料集合中的逆向文档频率来确定最终的实体主题模型,以通过最终的实体主题模型得到的扩展查询本文档来自技高网...
检索方法和检索系统

【技术保护点】
一种检索方法,其特征在于,包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。

【技术特征摘要】
1.一种检索方法,其特征在于,包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。2.根据权利要求1所述的检索方法,其特征在于,通过以下公式统计所述扩展查询模型与所述微博文档语言模型之间的所述相似度,并将相似度大于或等于预设相似度的目标微博文档作为所述目标检索结果:Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中,Score(Q,D)表示所述相似度,V表示所述微博文档语言模型中的所有实体,表示所述扩展查询模型,表示所述微博文档语言模型,表示所述目标实体在所述扩展查询模型中所占有的概率,表示所述目标实体在所述微博文档语言模型中所占有的概率。3.根据权利要求1所述的检索方法,其特征在于,根据下列公式计算得到所述扩展查询模型:p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中,表示所述扩展查询模型,表示所述原始查询模型,表示所述目标实体主题模型,表示所述目标实体在所述扩展查询模型中所占有的概率,表示所述目标实体在所述原始查询模型中所占有的概率,表示所述目标实体在所述目标实体模型中所占有的概率,所述α表示初始插值参数。4.根据权利要求3所述的检索方法,其特征在于,根据接收到的更新命令,按照以下公式更新所述α,以得到α′:α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中,w表示所述目标实体,E表示所述目标实体模型中的所有实体,Q表示所述查询语句中的所有实体,w1表示所述查询语句中的任一实体,IDF(w)表示所述目标实体在所述微博语料集合中的逆向文档频率、IDF(w1)表示所述任一实体在所述微博语料集合中的逆向文档频率。5.根据权利要求1所述的检索方法,其特征在于,当所述目标实体为多个时,根据每个所述目标实体在所述微博语料集合中的逆向文档频率和每个所述目标实体的所述目标实体主题模型,确定最终的实体主题模型,以使用所述最终的实体主题模型、所述原始查询模型和与所述微博文档语言模型来创建所述扩展查询模型。6.根据权利要求5所述的检索方法,其特征在于,根据接收到的第一创建命令,通过以下公式确定所述最终的实体主题模型:p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中,表示所述最终的实体主题模型,表示每个所述目标实体在所述最终的实体主题模型中所占有的概率,n表示所述目标实体的数目,表示每个所述目标实体的目标实体主题模型,IDF(Ei)表示每个所述目标实体在所述微博语料集合中的逆向文档频率,表示每个所述目标实体在与所述目标实体相应的所述目标实体主题模型中所占有的概率,Ei表示多个所述目标实体中的第i个所述目标实体。7.根据权利要求1至6中任一项所述的检索方法,其特征在于,根据接收到的第二创建命令,通过以下过程创建与所述目标实体相应的目标实体主题模型:当所述微博语料集合所在的语料集合数据库接收到所述目标实体时,根据所述目标实体从所述微博语料集合中提取与所述目标实体相关的M条微博文档;根据所述目标实体所属的目标领域,在与所述语料集合数据库相连接的目标领域知识库中搜索与所述目标领域相关的多个关键词,其中,多个
\t所述关键词包括所述目标实体;根据多个所述关键词生成与所述目标领域对应的虚拟文档;根据所述虚拟文档建立领域语言模型,并根据所述微博语料集合中的每条微博文档中的所有实体建立背景语言模型;使用所述领域语言模型、所述背景语言模型和与所述目标实体对应的初始实体模型遍历所述M条微博文档,并进行N次迭代运算,以得到所述目标实体主题模型,其中,M≥1,N≥1,且M和N均为正整数。8.根据权利要求7所述的检索方法,其特征在于,还包括:在生成与所述目标领域对应的所述虚拟文档后,统计所述目标实体在与所述目标领域对应的所述虚拟文档中的第一出现次数,以及多个所述关键词中的每个所述关键词在所述目标领域对应的所述虚拟文档中的第二出现次数;根据所述第一出现次数和所述第二出现次数确定所述目标实体的领域先验值;根据所述领域先验值更新所述领域语言模型。9.一种检索系统,其特征在于,包括:第一模型创建单元,在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;实体识...

【专利技术属性】
技术研发人员:强闰伟范非凡吕超杨建武
申请(专利权)人:北京大学北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1