一种用于对检索结果重新排序的协同检索方法技术

技术编号:3846695 阅读:378 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种用于对检索结果重新排序的协同检索方法,该方法的主要目的是将具有相同检索意图用户的检索经验结合起来,用于提高检索结果的排序质量。该方法分为四个阶段:预处理阶段、用户兴趣学习阶段、社区计算阶段和排序分值计算阶段。从Web搜索引擎的查询日志入手,该方法对用户的检索活动进行分析,在预处理阶段建立查询-特征词关系矩阵作为潜在知识库。然后从用户的查询会话片段中学习每个用户的兴趣模型。综合用户的兴趣模型和潜在知识库,动态的计算社区的组成范围。最后,社区内成员的检索经验根据各成员与活动用户之间的相似度被赋予不同的权重,用于调整检索结果的顺序,提高排序质量。

【技术实现步骤摘要】

本专利技术涉及 一 种用于对检索结果重新排序的协同检索方法,适用于W e b 信息的协同检索。技术背景检索结果的排序对用户查询的质量存在直接影响。当检索结果中的每个 文档根据自身的相关性和重要性被赋予合理的分值作为排序依据时,查询过 程是令人满意的;反之,如果检索结果中文档的评分结果缺乏合理性,将产 生较差的用户体验。通过评估特定文档的重要性和权威性对文档进行排序,已经展开了大量 的研究,并提出了很多方法,其中最为著名的两种方法是HITS和PageRank。 但HITS算法需要较多的查询处理时间,而且更容易受到垃圾链接的影响; 而PageRank算法根据Web上的所有页面计算各页面的全局分数,独立于用 户查询,没有考虑用户的特定话题。近年来,通过分析查询日志对检索结果重排序的研究取得了一定的发 展,如Ziming和Silviu提出了一种基于查询日志的Web检索结果重排序 方法Q-Rank, Q-Rank从日志中寻找活动查询的相关信息构建查询上下文, 以此作为排序的主要因素。Eugene 、 Eric和Susan从查询日志中挖掘用户的 行为信息,优化查询结果排序。Shen和Zhai提出的方法使用过去的查询序 列辅助当前查询,并对文档的相关性进ff预测。日前,美国《大众机械》杂志近日预测了 2009年将可能出现的是十大 科技概念,其中协同检索技术赫然在列。协同检索是考虑到参加合作项目的 人经常复制彼此间在网络搜索方面的工作而产生的技术,其充分证明了"团 结就是力量",提高了搜索效率。然而,已有的协同检索技术的实现过程都忽略了 Web协同检索的一个重要步骤,即社区的建立。在已有的方法中, 社区的组成由用户或系统预先进行定义,这种才几制往往忽略了两个用户之间 的相似度,在排序过程中为社区中的每位成员赋予相同的权重,降低了系统 的有效性。除此之外,还存在(l)必须预先定义查询种类,而且预定义的质 量直接影响排序质量;(2)用户描述文件的建立使用支持向量机的方法,如果 用户兴趣发生改变,更新难度较大的技术问题。
技术实现思路
本专利技术的技术解决问题克服现有技术的不足,提供一种对Web检索 结果重新排序的协同4全索方法CRRA(Collaborative Re-Ranking Approach)。 该方法从分析查询日志入手建立潜在知识库,动态的计算社区的范围,参考 社区内各成员的检索经验,对检索结果重新排序。在参考检索经验时,根据 各成员与活动用户之间的相似度赋予不同的权重。使用CRRA进行Web信 息检索后,大大增强了自身的有效性。本专利技术的技术解决方案 一种对Web检索结果重新排序的协同检索方 法,该方法旨在用户、查询和文档特征词之间建立概率关系模型,并使用该 模型构造用户兴趣描述文件、根据概率理论和协同过滤技术动态计算社区; 之后,分配给社区中每位成员一个推荐向量,并利用这些向量计算每个检索 结果文档的排序分值;其特征在于该方法分为四个阶段预处理阶段、用 户兴趣学习阶段、社区计算阶段和排序分值计算阶段。预处理阶段的主要目的是分析得到所有用户的检索经验。根据查询曰志 建立查询^和文档特征词4之间的概率关系,构造矩阵^7,、其中矩阵元素 对应于条件概率; 仏l&),当概率值越高时,特征词^与查询^之间的关系越 紧密。条件概率p仏l^.)的计算方式如下其中,D(《,)表示用户提交查询义.时所选择的结果文档组成的集合,d为该集合中的一个文档,r(力表示文档d的特征词集合,^>,力是用于计算在文档d 内包含特征词/次数的函数,x&.)表示查询日志中关于查询&.的记录条数, /(%,^)表示查询日志中提交了查询A并同时选择了文档t/的次数。在计算条件概率/ 仏l&)之后,矩阵M"就可以被完整的表达出来。矩阵M^的每一行表示一个查询概念,每一列表示一个特征词,矩阵中的每个数值表示讨论中的条件概率。因此,在矩阵M"的某一行中,其最大值表示对 应的特征词与对应的查询关系最为密切。每一行对应的查询概念可表示为一个向量^ = (wm , %v2 ,..., wm , } = I : ),(《,),…,P(G (力),...}。用户兴趣学习阶段中,通过分析查询日志中的查询会话片段,用矩阵形 式表示用户兴趣,即矩阵M^,'。查询会话片段用 一个三元组表示,即",,^,S),其中仏和^表示一个用户w,提交给Web搜索系统的一个查询^表示一个向量,该向量描述了在该场景中每个特征词^出现在被选择文档中的条件 概率,即S = K,m,w',,"-,…,,.. },且,.,a = /4 I ",,力), 且一个查询会话片段对应查询日志中的一条记录,因此,它可能是一个完整 的查询会话,即在该查询会话片段中用户找到了满足自己需求的信息;也可 能是一个查询会话的一部分,即用户检索Web系统时的目标并未在这一个 查询会话片段中达到,可能需要重构查询。从定义可以看出,每个查询会话 片段涉及了三个因素,即用户、查询和特征词。矩阵AT7"的构造过程将用户视为 一个关键因素。矩阵中的每个元 素对应于一个条件概率,即; (4h,A)。根据条件概率/^勿,)的计算方法,可 以得到<formula>formula see original document page 8</formula>其中,DO,,&)表示用户w,提交查询^后选择的所有文档组成的集合,d为该集合中的一个文档,/^,,&)是用于统计用户M,提交查询^y次数的函数,/(",,》,力 表示用户M,提交查询^后选择文档d的次数。矩阵W^的每一行表示对应 用户的一个查询概念,每一列表示一个特征词,元素数值对应条件概率户(4lw,., /)。每一行表示的查询概念可以表示为一个向量,则每个用户的兴趣描述由这样的向量组成。社区计算阶段中,动态计算社区范围。当一个用户W提交一个查询《给Web搜索系统后,该用户所在的社区"的计算方法如下1)计算查询《的邻居,即从查询日志中分析出与查询《相似的查询。 在预处理阶段矩阵W"的基础上,得到每个查询的向量表示形式,即l = (P(A I力),户02 l力),…,P(G I《;), } 计算每个查询与活动查询^之间的相似度。查询《和^之间的相似度计算选 用向量空间模型中的cosine相似度方法,即^S7'W(《,, ) = COS(《,)=1 1间选择与查询《最为相似的Kg个查询组成《的邻居区域2 (g包括《本身)。2) 构造用户-特征词矩阵A^ 。该矩阵中的每个元素对应于条件概率 /("l",),其计算方法如下/^(^ lM,)=》(G l",,^)xP(^ 。3) 计算用户所在的社区范围,即用户的最近邻居。在矩阵i^,'的基础 上,每个用户可以表示成一个向量形式,即利用用户向量计算用户W与其余用户之间的相似度,并选择最为相似的《 个用户组成社区f/。用户w与w,之间的相似度计算方法如下式所示排序分值计算阶段的主要目标是在上述三个阶段准备工作的基础上,为 结果文档进行排序。检索结果中每个文档的排序位置应该综合考虑活动用户 的检索经验和社区内其他成员的检索经-睑。当完成社区t/的本文档来自技高网
...

【技术保护点】
一种对Web检索结果重新排序的协同检索方法,该方法旨在用户、查询和文档特征词之间建立概率关系模型,并使用该模型构造用户兴趣描述文件,根据概率理论和协同过滤技术动态计算社区;之后,分配给社区中每位成员一个推荐向量,并利用这些向量计算每个检索结果文档的排序分值;其特征在于:该方法分为四个阶段:预处理阶段、用户兴趣学习阶段、社区计算阶段和排序分值计算阶段; 在所述的预处理阶段中,根据查询日志建立查询q↓[j]和文档特征词t↓[k]之间的概率关系,构造矩阵M↑[q,t],其中矩 阵元素对应于条件概率p(t↓[k]|q↓[j]);特征词t↓[k]与查询q↓[j]之间的相关度随概率值单调递增; 条件概率p(t↓[k]|q↓[j])计算后,矩阵M↑[q,t]即可表达出来,矩阵M↑[q,t]的每一行表示一个查询概念, 每一列表示一个特征词,矩阵中的每个数值表示讨论中的条件概率;矩阵M↑[q,t]的某一行中,其最大值表示对应的特征词与对应的查询关系最为密切,每一行对应的查询概念可表示为一个向量: *↓[j]={w↓[j,t↓[1]],w↓[j,t↓[ 2]],…,w↓[j,t↓[k]],…}={p(t↓[1]|q↓[j]),p(t↓[2]|q↓[j]),…,p(t↓[k]|q↓[j]),…}; 在所述的用户兴趣学习阶段,通过分析查询日志中的查询会话片段,用矩阵形式表示用户兴趣,即矩 阵M↑[uq,t],其中查询会话片段用一个三元组表示,即(u↓[i],q↓[j],*↓[ij]),u↓[i]和q↓[j]表示一个用户u↓[i]提交给Web搜索系统的一个查询q↓[j];*↓[ij]表示一个向量,该向量描述了在该场景中每个特征词t↓[k]出现在被选择文档中的条件概率,且 *↓[ij]={w↓[i,j,t↓[1]],w↓[i,j,t↓[2]],…,w↓[i,j,t↓[k]],…},且w↓[i,j,t↓[k]]=p(t↓[k]|u↓[i],q↓[j]),   一个查询会话片段对应查询日志中的一条记录; 在所述的社区计算阶段中,动态计算社区范围; 在所述的排序分值计算阶段中,为结果文档进行排序;完成社区U的动态计算之后,计算文档d的排序分值,即: S(d,u,q,U)=α×si m(*,u↑[Q])+(1-α)×*(sim(u,u↓[i])×sim(*,u↓[i]↑[Q])), 其中,参数α反映了个人因...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘永利欧阳元新张琪熊璋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1