【技术实现步骤摘要】
本专利技术涉及计算机智能信息处理的个性化智能信息检索技术,具体涉及一种基于查询扩展的个性化信息检索方法。
技术介绍
在目前互联网海量信息的背景下,由于用户信息需求的不同,在使用信息检索系统的过程中,希望尽可能将与用户最相关或最感兴趣的资源优先呈现,以减轻用户发掘和选择的负担。基于用户兴趣的个性化信息检索定位于实现将用户最感兴趣的内容置于检索结果列表的第一位,这一方法已在信息检索中得到广泛应用。个性化信息检索在传统信息检索的基础上,根据用户的偏好将用户最感兴趣的内容置于检索结果列表的前列,提高传统检索的准确率和用户满意度。它们之间的主要区别在于个性化信息检索系统包含一个用户兴趣模型,能够持续跟踪用户的信息需求,实现个性化搜索结果。该模型可以分为两种类型:一类模型以个人用户为主体,而另一类模型则使用协作式的群体用户来构建。就表现形式来说,向量模型、概念层次模型和语义网络模型是三类主流的方法。在获取了用户兴趣模型之后,个性化搜索系统通常采用三种方法来进行信息检索:查询词优化、检索结果优化和两者结合的方法。在查询词优化中,查询词扩展是经常使用的方法。不同于信息检索经常使用的伪相关反馈方法,个性化检索系统充分使用了用户兴趣模型,有时还借助第一次检索的结果来选取适合的关键词,用以扩展原有查询词进行检索。根据相同的原理,检索结果也可以通过用户兴趣模型来进行调整。使用搜索日志和挖掘社交网络信息是目前比较流行的数据采集和测试模式。然而,目前个性化信息检索中查询扩展的方法对扩展候选词的相关度的计算都仅仅停留在对文字内容的匹配上,并没有建立在对文字内容理解的基础上,这样造成的 ...
【技术保护点】
一种基于查询扩展的个性化信息检索方法,其特征在于实施步骤包括:1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理;2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词;3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理;4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项;5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关 ...
【技术特征摘要】
1.一种基于查询扩展的个性化信息检索方法,其特征在于实施步骤包括:1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理;2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词;3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理;4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项;5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档,使用基于主题的查询扩展方法对所有特征词项进行排序,选取前δ个特征词项作为待扩展词项;6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词,使用新的查询词在目标文档集中进行新一轮的检索,生成发送给用户的最终文档结果列表。2.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容。3.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时,所述查询词集合中的每个查询词之间的逻辑关系为或。4.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时,所述新的查询词中的每个查询词之间的逻辑关系为或。5.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤2)中前λ个关键词项的λ取值区间为[5,20]。6.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤3)中前γ个相关文档的γ取值区间为[5,10]。7.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤5)中前δ个特征词项的δ取值区间为[5,20]。8.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示;式(1)中,表示在已知查询词中产生扩展词的概率,表示在查询词向量中的查询词项,查询词项是相互独立的;P(w|zk)表示在已知主题zk的情况下产生相关文档中词项的概率,P(zk|db)表示已知相关文档db的情况下产生主题zk的概率,表示在已知主题zk的情况下产生查询词项的概率,N表示文档个数,K表示主...
【专利技术属性】
技术研发人员:周栋,伍璇,赵文玉,
申请(专利权)人:湖南科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。