一种基于查询扩展的个性化信息检索方法技术

技术编号:14894971 阅读:121 留言:0更新日期:2017-03-29 10:15
本发明专利技术公开了一种基于查询扩展的个性化信息检索方法,实施步骤如下:首先根据历史查询词和用户历史检索记录中提取的历史点击文档获取外部文档,然后结合用户的历史检索记录、历史点击文档和外部文档构建基于隐含语义的用户兴趣模型,再使用基于主题的查询扩展方法选取用户兴趣模型中的特征词项,针对用户初始查询词进行扩展,进行新一轮检索,获取个性化的文档结果列表以提高检索的准确率,能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索,具有个性化信息检索准确率高的优点。

【技术实现步骤摘要】

本专利技术涉及计算机智能信息处理的个性化智能信息检索技术,具体涉及一种基于查询扩展的个性化信息检索方法
技术介绍
在目前互联网海量信息的背景下,由于用户信息需求的不同,在使用信息检索系统的过程中,希望尽可能将与用户最相关或最感兴趣的资源优先呈现,以减轻用户发掘和选择的负担。基于用户兴趣的个性化信息检索定位于实现将用户最感兴趣的内容置于检索结果列表的第一位,这一方法已在信息检索中得到广泛应用。个性化信息检索在传统信息检索的基础上,根据用户的偏好将用户最感兴趣的内容置于检索结果列表的前列,提高传统检索的准确率和用户满意度。它们之间的主要区别在于个性化信息检索系统包含一个用户兴趣模型,能够持续跟踪用户的信息需求,实现个性化搜索结果。该模型可以分为两种类型:一类模型以个人用户为主体,而另一类模型则使用协作式的群体用户来构建。就表现形式来说,向量模型、概念层次模型和语义网络模型是三类主流的方法。在获取了用户兴趣模型之后,个性化搜索系统通常采用三种方法来进行信息检索:查询词优化、检索结果优化和两者结合的方法。在查询词优化中,查询词扩展是经常使用的方法。不同于信息检索经常使用的伪相关反馈方法,个性化检索系统充分使用了用户兴趣模型,有时还借助第一次检索的结果来选取适合的关键词,用以扩展原有查询词进行检索。根据相同的原理,检索结果也可以通过用户兴趣模型来进行调整。使用搜索日志和挖掘社交网络信息是目前比较流行的数据采集和测试模式。然而,目前个性化信息检索中查询扩展的方法对扩展候选词的相关度的计算都仅仅停留在对文字内容的匹配上,并没有建立在对文字内容理解的基础上,这样造成的结果是扩展后的查询词仅仅是字面相似,而意义相差甚远。查询扩展中,也未将用户的查询词、用户历史点击文档和文档中的关键词结合起来考虑。目前已有的研究中用户兴趣模型根据用户的历史检索记录和历史点击文档来建立,当用户在系统中活跃度较低的时候,用户兴趣模型在在个性化信息检索系统中的发挥的作用就会受到限制。因此,随着用户个性化需求的提高和互联网上日益增长的信息量,个性化信息检索技术已经出现了性能屏障,如果突破瓶颈提高检索准确率已经成为信息检索领域的重要研究课题。
技术实现思路
本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索、个性化信息检索的准确率高的基于查询扩展的个性化信息检索方法。为了解决上述技术问题,本专利技术采用的技术方案为:一种基于查询扩展的个性化信息检索方法,实施步骤包括:1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理;2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词;3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理;4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项;5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档,使用基于主题的查询扩展方法对所有特征词项进行排序,选取前δ个特征词项作为待扩展词项;6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词,使用新的查询词在目标文档集中进行新一轮的检索,生成发送给用户的最终文档结果列表。优选地,步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容。优选地,步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时,所述查询词集合中的每个查询词之间的逻辑关系为或。优选地,步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时,所述新的查询词中的每个查询词之间的逻辑关系为或。优选地,步骤2)中前λ个关键词项的λ取值区间为[5,20]。优选地,步骤3)中前γ个相关文档的γ取值区间为[5,10]。优选地,步骤5)中前δ个特征词项的δ取值区间为[5,20]。优选地,步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示;式(1)中,表示在已知查询词中产生扩展词的概率,表示在查询词向量中的查询词项,查询词项是相互独立的;P(w|zk)表示在已知主题zk的情况下产生相关文档中词项的概率,P(zk|db)表示已知相关文档db的情况下产生主题zk的概率,表示在已知主题zk的情况下产生查询词项的概率,N表示文档个数,K表示主题的数量。优选地,步骤4)利用基于主题模型LDA的改进模型进行主题聚类的详细步骤包括:4.1)对历史查询词中的每一个主题k进行下述步骤:为每个特征词项选择主题-特征词项矩阵主题-特征词项矩阵服从狄利克雷分布Dirichlet(β),主题-特征词项矩阵的行代表特征词项、列代表主题,主题-特征词项矩阵中的元素代表每个特征词项在相应主题下发生的概率;其中,k∈[1,K],K表示主题的数目;4.2)针对每一个主题,对历史点击文档、外部文档集中的前γ个相关文档中每一个文档d进行下述步骤:为每个特征查询词项选择文档-主题矩阵θj,文档-主题矩阵θj服从狄利克雷分布Dirichlet(α),文档-主题矩阵θj的行代表主题、列代表文档,文档-主题矩阵θj中的元素代表每个主题在相应文档下发生的概率;4.3)针对每一个主题的历史点击文档dj中的每一个历史查询词wi进行下述步骤:(1)根据历史点击文档dj,选择主题zj,i,zj,i服从多项分布为多项分布的参数,i=1,…,K,K表示主题的数目;(2)根据主题zj,i,选择特征关键词wj,i,特征关键词wj,i服从多项分布为多项分布的参数;(3)根据主题zj,i,选择检索得到的结果文档列表文档得分sj,i,结果文档列表文档得分sj,i服从正态分布针对基于主题模型LDA的改进模型采用吉布斯抽样方法进行参数推断,在吉布斯抽样的每一轮抽样过程中,根据式(2)来进行抽样,并基于式(3)和式(4)计算出主题-特征词项矩阵和文档-主题矩阵θ;其中历史查询词wi中的表示特征关键词的数量;式(2)中,p(zj,i=k)表示抽取主题zj,i=k的概率,表示该轮抽样过程中不包括当前主题,主题zj,i被指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,wj,i被指派给主题k的次数;α表示主题的狄利克雷先验分布参数;β表示词项的狄利克雷先验分布参数;表示该轮抽样过程中主题不包括当前主题zj,i,其余所有主题指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,其余所有特征关键词被指派给主题k的次数;V表示词项的数量;sj,i表示查询词qi检索得到文档本文档来自技高网
...

【技术保护点】
一种基于查询扩展的个性化信息检索方法,其特征在于实施步骤包括:1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理;2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词;3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理;4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项;5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档,使用基于主题的查询扩展方法对所有特征词项进行排序,选取前δ个特征词项作为待扩展词项;6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词,使用新的查询词在目标文档集中进行新一轮的检索,生成发送给用户的最终文档结果列表。...

【技术特征摘要】
1.一种基于查询扩展的个性化信息检索方法,其特征在于实施步骤包括:1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理;2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词;3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理;4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项;5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档,使用基于主题的查询扩展方法对所有特征词项进行排序,选取前δ个特征词项作为待扩展词项;6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词,使用新的查询词在目标文档集中进行新一轮的检索,生成发送给用户的最终文档结果列表。2.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容。3.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时,所述查询词集合中的每个查询词之间的逻辑关系为或。4.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时,所述新的查询词中的每个查询词之间的逻辑关系为或。5.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤2)中前λ个关键词项的λ取值区间为[5,20]。6.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤3)中前γ个相关文档的γ取值区间为[5,10]。7.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤5)中前δ个特征词项的δ取值区间为[5,20]。8.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示;式(1)中,表示在已知查询词中产生扩展词的概率,表示在查询词向量中的查询词项,查询词项是相互独立的;P(w|zk)表示在已知主题zk的情况下产生相关文档中词项的概率,P(zk|db)表示已知相关文档db的情况下产生主题zk的概率,表示在已知主题zk的情况下产生查询词项的概率,N表示文档个数,K表示主...

【专利技术属性】
技术研发人员:周栋伍璇赵文玉
申请(专利权)人:湖南科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1