检索方法和检索系统技术方案

技术编号：14399383 阅读：155 留言：0更新日期：2017-01-11 12:39

本发明专利技术提出了一种检索方法和一种检索系统，其中，所述方法包括：在接收到对微博语料集合中的微博文档进行检索的查询语句时，根据所述查询语句创建与所述查询语句相应的原始查询模型；识别所述查询语句中的目标实体；根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型，对所述原始查询模型进行扩展，以得到扩展查询模型；统计所述扩展查询模型与所述微博文档语言模型之间的相似度，以根据所述相似度确定所述查询语句的目标检索结果。通过本发明专利技术的技术方案，使用户可以准确地在微博文档中检索得到目标检索结果，从而提高了准确率，同时还可以增强检索的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及检索
，具体而言，涉及一种检索方法和检索系统。
技术介绍
微博是一个基于用户关系的轻量级信息传播平台，用户可以广播并分享关于他的活动及状态信息。微博的流行带来了对微博文档进行检索的需求，用户也逐渐习惯对微博文档进行各种内容的搜索。与传统的Web检索不同，对微博文档的检索面临很大的挑战，首先，由于微博文档的长度限制，使微博检索面临着严峻的词汇不匹配问题。此外，由于同一个实体具有不同别名，因此，不同用户在对同一个实体进行检索时可能会采用与该实体对应的别名进行检索，例如实体“周杰伦”的别名有“周董、杰伦、伦宝”等，这样通过别名在微博文档中检索得到的目标检索结果也就不准确，而且检索的效率也不高，另一方面，微博文档本身中也包含有很多实体，这样都会使检索得到的目标检索结果不准确。因此，如何使用户可以准确地在微博文档中检索到目标检索结果，成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题，提出了一种新的技术方案，可以解决用户在微博文档中不能准确地检索得到目标检索结果的技术问题。有鉴于此，本专利技术的一方面提出了一种检索方法，包括：在接收到对微博语料集合中的微博文档进行检索的查询语句时，根据所述查询语句创建与所述查询语句相应的原始查询模型；识别所述查询语句中的目标实体；根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型，对所述原始查询模型进行扩展，以得到扩展查询模型；统计所述扩展查询模型与所述微博文档语言模型之间的相似度，以根据所述相似度确定所述查询语句的目标...
检索方法和检索系统

【技术保护点】
一种检索方法，其特征在于，包括：在接收到对微博语料集合中的微博文档进行检索的查询语句时，根据所述查询语句创建与所述查询语句相应的原始查询模型；识别所述查询语句中的目标实体；根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型，对所述原始查询模型进行扩展，以得到扩展查询模型；统计所述扩展查询模型与所述微博文档语言模型之间的相似度，以根据所述相似度确定所述查询语句的目标检索结果。

【技术特征摘要】
1.一种检索方法，其特征在于，包括：在接收到对微博语料集合中的微博文档进行检索的查询语句时，根据所述查询语句创建与所述查询语句相应的原始查询模型；识别所述查询语句中的目标实体；根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型，对所述原始查询模型进行扩展，以得到扩展查询模型；统计所述扩展查询模型与所述微博文档语言模型之间的相似度，以根据所述相似度确定所述查询语句的目标检索结果。2.根据权利要求1所述的检索方法，其特征在于，通过以下公式统计所述扩展查询模型与所述微博文档语言模型之间的所述相似度，并将相似度大于或等于预设相似度的目标微博文档作为所述目标检索结果：Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中，Score(Q,D)表示所述相似度，V表示所述微博文档语言模型中的所有实体，表示所述扩展查询模型，表示所述微博文档语言模型，表示所述目标实体在所述扩展查询模型中所占有的概率，表示所述目标实体在所述微博文档语言模型中所占有的概率。3.根据权利要求1所述的检索方法，其特征在于，根据下列公式计算得到所述扩展查询模型：p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中，表示所述扩展查询模型，表示所述原始查询模型，表示所述目标实体主题模型，表示所述目标实体在所述扩展查询模型中所占有的概率，表示所述目标实体在所述原始查询模型中所占有的概率，表示所述目标实体在所述目标实体模型中所占有的概率，所述α表示初始插值参数。4.根据权利要求3所述的检索方法，其特征在于，根据接收到的更新命令，按照以下公式更新所述α，以得到α′：α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中，w表示所述目标实体，E表示所述目标实体模型中的所有实体，Q表示所述查询语句中的所有实体，w1表示所述查询语句中的任一实体，IDF(w)表示所述目标实体在所述微博语料集合中的逆向文档频率、IDF(w1)表示所述任一实体在所述微博语料集合中的逆向文档频率。5.根据权利要求1所述的检索方法，其特征在于，当所述目标实体为多个时，根据每个所述目标实体在所述微博语料集合中的逆向文档频率和每个所述目标实体的所述目标实体主题模型，确定最终的实体主题模型，以使用所述最终的实体主题模型、所述原始查询模型和与所述微博文档语言模型来创建所述扩展查询模型。6.根据权利要求5所述的检索方法，其特征在于，根据接收到的第一创建命令，通过以下公式确定所述最终的实体主题模型：p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中，表示所述最终的实体主题模型，表示每个所述目标实体在所述最终的实体主题模型中所占有的概率，n表示所述目标实体的数目，表示每个所述目标实体的目标实体主题模型，IDF(Ei)表示每个所述目标实体在所述微博语料集合中的逆向文档频率，表示每个所述目标实体在与所述目标实体相应的所述目标实体主题模型中所占有的概率，Ei表示多个所述目标实体中的第i个所述目标实体。7.根据权利要求1至6中任一项所述的检索方法，其特征在于，根据接收到的第二创建命令，通过以下过程创建与所述目标实体相应的目标实体主题模型：当所述微博语料集合所在的语料集合数据库接收到所述目标实体时，根据所述目标实体从所述微博语料集合中提取与所述目标实体相关的M条微博文档；根据所述目标实体所属的目标领域，在与所述语料集合数据库相连接的目标领域知识库中搜索与所述目标领域相关的多个关键词，其中，多个
\t所述关键词包括所述目标实体；根据多个所述关键词生成与所述目标领域对应的虚拟文档；根据所述虚拟文档建立领域语言模型，并根据所述微博语料集合中的每条微博文档中的所有实体建立背景语言模型；使用所述领域语言模型、所述背景语言模型和与所述目标实体对应的初始实体模型遍历所述M条微博文档，并进行N次迭代运算，以得到所述目标实体主题模型，其中，M≥1，N≥1，且M和N均为正整数。8.根据权利要求7所述的检索方法，其特征在于，还包括：在生成与所述目标领域对应的所述虚拟文档后，统计所述目标实体在与所述目标领域对应的所述虚拟文档中的第一出现次数，以及多个所述关键词中的每个所述关键词在所述目标领域对应的所述虚拟文档中的第二出现次数；根据所述第一出现次数和所述第二出现次数确定所述目标实体的领域先验值；根据所述领域先验值更新所述领域语言模型。9.一种检索系统，其特征在于，包括：第一模型创建单元，在接收到对微博语料集合中的微博文档进行检索的查询语句时，根据所述查询语句创建与所述查询语句相应的原始查询模型；实体识...

【专利技术属性】
技术研发人员：强闰伟，范非凡，吕超，杨建武，
申请(专利权)人：北京大学，北大方正集团有限公司，北京北大方正电子有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人