当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于协作过滤的个性化查询扩展方法技术

技术编号:2915923 阅读:331 留言:0更新日期:2012-04-11 18:40
一种基于协作过滤的个性化查询扩展方法,属于个性化服务领域,其特征是利用用户群组对搜索结果的种种行为作为对词与词之间关系分析的依据,而不是依据文档中词语的相关性。根据同一个用户聚类内所有用户提交过的查询词以及用户对Web搜索引擎给出的结果的隐式反馈信息而进行查询扩展。该算法不需要用户人为地填写或修改个人兴趣,而是基于用户以往对搜索结果的种种动作,保证了用户兴趣的持久更新。

【技术实现步骤摘要】

本专利技术属于个性化服务领域,具体涉及。
技术介绍
Web信息的日益增长,使人们不得不花费大量的时间搜索和浏览自己需要的信 息。传统的搜索引擎比如AltaVista (www.altavista.com)、 Yahoo! (www.yahoo.com) 和新一代的搜索引擎比如Google (www.google.com)满足了人们一定的需要,但 由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的个性化查询需求。 另外,电子商务应用的日益普及,越来越多的商品可供人们从因特网上挑选和购买。 尽管人们可以更加轻松地买到自己需要的物品,但网上琳琅满目,千差万别的商品 使消费者很难选择自己中意的产品。通常,人们很想了解别人的看法,并希望有人 向他们进行推荐。另外,随着互联网上的资源的日益增多,如何对自己感兴趣的资 源进行管理也成为人们越来越关心的问题。很多方面都涉及到个性化服务的需求, 由于本专利技术的着重点在个性化搜索,这里以个性化搜索作为主要
技术介绍
描述。用户希望从搜索引擎中获得最贴近自己需要的信息,即对于同一査询,不同用户 能够获得不同的搜索结果。例如,同样的査询"苹果",有的用户希望"苹果"作为一种 水果,获得它的相关信息;而另外的用户可能希望"苹果"作为一种计算机品牌,获 取相关信息。有研究表明网络用户用于搜索的査询85%是短查询,该类査询一般 包括3个或更少数目的查询单词。因此,用户提交的査询通常不能充分表达出搜索 相关文档所需的信息。目前,Web搜索引擎广泛采用自动査询扩展方法来解决这个 问题,并获得了成功。即在原来査询的基础上,加入与用户用词相关联的词组成新 查询,这在一定程度上弥补了用户査询信息的不足。对用户提交的査询进行扩展可 以提高查询的准确性,但由于搜索引擎作为通用查询工具,很难做到用户间差异性, 也就是说很难实现深入的个性化搜索。
技术实现思路
本专利技术的目的是提供来解决査询个性化 问题。本专利技术的特征在于,所述方法是在计算机中依次按以下步骤进行的 步骤(1)初始化在所述计算机中设定以下模块用户兴趣学习模块、用户聚类模块、査询词相似 度计算模块以及基于协作过滤的个性化查询扩展模块,其中用户兴趣学习模块设定用户动作以及该用户动作对应的兴趣值的映射表a. 用于下载文档的兴趣值为0.8,b. 用于为文档评分的兴趣值为评分值/满分值,评分值由用户设定,用户根据 对文档内容的兴趣度以及文档外观的怎样打分,满分值为5分,C.用于为文档添加书签的兴趣值为1,d. 用于为文档删除的书签的兴趣值为-1,e. 在文档级别上,用户"浏览文档rf的兴趣度为,MVf尸(印rf ,"《矽J ,d 'ld, eD J), 其中印flf ,力为用户"阅读文档的速度,^ ^M,^=£rf/rrf,丄rf为文档d的长度,D为 用户"阅读文档rf的时长,i)"为用户w浏览过的所有文档的集合,用户"阅读速度最 慢的文档是最感兴趣的文档,用1表示;所述在文档级别上的兴趣度按下式计算mv/"/^ ,力"/^^,cT力其中『表示用 户"阅读速度最快的文章,用户提交过多次査询后,对同一篇文档d有多种动作,其综合兴趣度用M^表示 <rf=max(<rf)+c,y=7,''', A,y为用户动作序号,M^为序号为乂的用户动作的兴趣值, "在中取值,e.在领域级别上用户"浏览文档d的兴趣度为尸w,公式如下<formula>formula see original document page 7</formula>其中,^为序号为f的领域类型,所述领域类型的集合0{^,^,...,^}, r为该领域类型C的大小,尸(c,kO为文档d属于领域G的条件概率,D"为用户"浏览过的所有文档集合, ak(AO为用户反馈的文档数;用户聚类模块,用下述KMea^聚类对所以阅读过文档的用户分类,其步骤为-第一步随机选择《个用户,其中每个用户A初始代表一个簇中心op, /^厶...,《, 第二步计算剩余的每个用户"c各自与各个簇中心Op的欧氏距离"("c,Op)-、Z(/^-; 。,)2 ,其中,i^表示剩余用户"c对领域的c,兴趣值,尸。,表示属于簇^的用户对所述领域类型Q的平均兴趣值,P。t=「、S/^, ^为所述簇中心的大小,第三步根据所述剩余的每个用户"c与各个簇中的Op的距离,把"c给最近的簇中心,第四步重新计算每个簇中心对领域类型C,的平均兴趣值,第五步重复上述第一到第四步,直至i^-尸。,C,阈值f取l(TS;查询相似度计算模块,用于计算与各个用户聚类Op内所有用户各自的第Z'次提交 的査询词仏相似的由用户隐式反馈的査询词&:组成的列表"m丄W-(^,^,...,^,所述相似査询词gr满足以下条件由用户提交的査询词A查询得到的由搜索引擎给出的一组链接集合re^ ={ &, A,..., & }, 以及由用户隐式反馈链接集合res^来计算两个查询词^,、之间的相似度,其公式为当计算得到的相似值w7m7fln'OY^, ^)大于给定阈值5, 5取值区间为(O,l),则将《: 添加到所述表中,否则舍去;基于协作过滤的个性化查询扩展模块;第一步,构造属于用户聚类%的原始查询词和扩展査询词的组合,用《+ Z表示,《/S57'W丄抓 A,.为-l或1,第二步,把所述原始查询词和扩展词的组合提交所述搜索引擎,得到扩展查询词,第三步,当用户属于不同聚类中时,重复上述第一步和第二步;步骤(2),用户输入査询词《,得到m^={ A,..., & },并依次通过步骤(1) 中所述各模块,得到多个个性化扩展查询词以及这些扩展査询词与査询词《之间的相 似度排序结果。本专利技术的优点在于(1)体现用户的个性化查询需求,同一査询,不同用户能够 获得不同的搜索结果;(2)查询扩展不是依据文档中词语的相关性,而是依据同一个 用户聚类内所有用户提交过的査询词以及用户对Web搜索引擎给出的结果的隐式反馈f曰息。附图说明图1是基于协作过滤的个性化査询扩展的体系结构; 图2是个性化查询扩展的处理流程;图3是查询词相似度(査询词以collaborative filtering为例),其中①查询词协作过滤,(2)査询扩展词推荐,G)査询扩展词聚类,④査询扩展词信息过滤, 查询扩展词计算机,⑥査询扩展词推荐系统。具体实施例方式本专利技术提出了一种基于协作过滤的个性化査询扩展方法,结合协作过滤,利用用 户群组对搜索结果的种种行为体现用户的个性化查询以及对用户查询进行扩展,如图 l所示,个性化查询扩展包括下述几个步骤(l)用户兴趣学习,(2)用户聚类,(3) 查询词处理,主要涉及査询词相似度的计算,(4)基于协作过滤的个性化查询扩展。用户兴趣学习为了实现个性化搜索必须了解用户的搜索意图,要建立一种长期的且能动态更新8的方式来学习用户的兴趣.对用户兴趣的捕捉基于用户对以往搜索结果的种种动作。这 里设定的资源对象为Web文档。用户提交一项查询《,搜索引擎相应地给出一组页面链接集合re^={^, A,..., &}。用户对于集合w 中的页面链接,有些进一步打开浏览,有些下载,这些用户动 作体现了用户兴趣。不同的用户动作本文档来自技高网
...

【技术保护点】
一种基于协作过滤的个性化查询扩展方法,其特征在于,所述方法是在计算机中依次按以下步骤进行的: 步骤(1)初始化 在所述计算机中设定以下模块:用户兴趣学习模块、用户聚类模块、查询词相似度计算模块以及基于协作过滤的个性化查询扩展模块 ,其中: 用户兴趣学习模块: 设定:用户动作以及该用户动作对应的兴趣值的映射表: a.用于下载文档的兴趣值为0.8, b.用于为文档评分的兴趣值为:评分值/满分值,评分值由用户设定,用户根据对文档内容的兴趣度以及文档 外观的怎样打分,满分值为5分, c.用于为文档添加书签的兴趣值为1, d.用于为文档删除的书签的兴趣值为-1, e.在文档级别上,用户u浏览文档d的兴趣度为,w↓[u,d]=P(spd(u,d)≤spd(u,d’|d’∈D ↓[u])),其中spd(u,d)为用户u阅读文档d的速度,spd(u,d)=L↓[d]/T↓[d],L↓[d]为文档d的长度,T↓[d]为用户u阅读文档d的时长,D↓[u]为用户u浏览过的所有文档的集合,用户u阅读速度最慢的文档是最感兴趣的文档,用1表示; 所述在文档级别上的兴趣度按下式计算:w↓[u,d]=spd(u,d)/spd(u,d’),其中d’表示用户u阅读速度最快的文章, 用户提交过多次查询后,对同一篇文档d有多种动作,其综合兴趣度用w′↓[u,d] 表示:w↓[u,d]↑[j]=max(w↓[u,d]↑[j])+α,j=1,…,λ,j为用户动作序号,w↓[u,d]↑[j]为序号为j的用户动作的兴趣值,α在[0.1,0.3]中取值, g.在领域级别上用户u浏览文档d的兴趣度为P↓[ ut],公式如下: P↓[ut]=P(c↓[t]|u)=*** 其中,c↓[t]为序号为t的领域类型,所述领域类型的集合C={c↓[1],c↓[2],…,c↓[T]},T为该领域类型C的大小,P(c↓[t]|d)为文档d属于领域 c↓[t]的条件概率,D↓[u]为用户u浏览过的所有文档集合,size(D↓[u])为用户反馈的文档数; 用户聚类模块,用下述KMeans聚类对所以阅读过文档的用户分类,其步骤为: 第一步:随机选择K个用户,其中每个用户k初始代 表一个簇中心o↓[p],p=1,…,K, 第二步:计算剩余的每个用户u↓[c]各自与各个簇中心o↓[p]的欧氏距离d(u↓[c...

【技术特征摘要】

【专利技术属性】
技术研发人员:周莉张勇邢春晓
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1