当前位置: 首页 > 专利查询>新乡学院专利>正文

基于查询点击图的检索推荐模型优化制造技术

技术编号:14694955 阅读:69 留言:0更新日期:2017-02-23 19:06
本发明专利技术公开了一种基于查询点击图的检索推荐模型优化,与现有技术相比,本发明专利技术首先对用户的搜索行为及意图进行了分析,并对搜索行为的数据提取方法和表示进行了研究,通过对查询会话的深入挖掘,提出了基于用户查询日志的查询词关联方法。其次,重点对传统查询点击二分图推荐模型的理论及计算方法进行了分析。由于查询点击二分图的结构简单、实用性强,并且实施过程不依赖于检索词与网页相似度计算,因此被广泛应用于搜索引擎中。本发明专利技术提出了利用点击频率代替点击次数来构建二分图中边的权重,这样可以避免权重不被过多的无效点击而偏置,使推荐系统尽可能达到稳定状态。最后,通过实验及数据分析从三个方面证明了改进模型的优越性。

【技术实现步骤摘要】

本专利技术涉及一种图像模型优化方案,尤其涉及一种基于查询点击图的检索推荐模型优化
技术介绍
很多学者对用户搜索日志进行了研究分析,主要从查询词关联和查询点击二分图方面建立查询推荐模型。由于用户的知识层次不同,以及进行搜索操作时存在随意性提交不规范的查询词和点击不相关的查询结果,导致查询日志中存在大量不准确、不规范和不具有代表性的查询信息,随着时间推移,这些不准确的信息会逐渐积累,如果利用传统推荐方法,将这些不准确的信息挖掘理解,将会推荐出不准确或者不被用户接受的查询。因此,在大数据时代,从大规模的日志中挖掘出精确、具有代表性的优质查询信息,是构建查询推荐的重要基础。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于查询点击图的检索推荐模型优化。本专利技术通过以下技术方案来实现上述目的:本专利技术包括优化目标构建、权重值重构和推荐算法优化;所述优化目标构建:根据上述内容分析可知,搜索结果中点击最多的页面是查询最主要的搜索结果;我们先对于查询点击二分图中元素的关系建立形式化描述:定义1令查询点击二分图G={Q∪U,E,W

【技术保护点】
一种基于查询点击图的检索推荐模型优化,其特征在于:包括优化目标构建、权重值重构和推荐算法优化;所述优化目标构建:根据上述内容分析可知,搜索结果中点击最多的页面是查询最主要的搜索结果;我们先对于查询点击二分图中元素的关系建立形式化描述:定义1令查询点击二分图G={Q∪U,E,W},其中Q表示查询会话节点集合,U表示查询结果网页集合,E表示图中边的集合,W表示边的权重集合;则对于查询点击二分图中边eij的权重Wij构建方法如下:查询点击二分图的优化目标:公式(1)表示:当查询会话节点为qi(qi∈Q)时,二值优化变量cij表示查询点击图是否选择了边eij,而优化目标的损失函数是最大化的选择边的权重和,约束条件是保留边的查询与网页关联权重为最大,即cij=1时,wij≥wik且wij≥wkj;满足此目标时,表示查询点击图中保留了尽量多的关于查询和点击的最大次数;优化目标公式(1)能够对一个查询或者网页选择出多个相同的最大权重边;若引入每个节点的度d(i)=∑jδ(i,j)且d(j)=∑iδ(i,j),则公式(1)等价于公式(2),其中δ(i,j)代表查询节点qi与网页节点ui之间是否存在边(存在为1,否则为0);查询点击核心图的优化目标等价形式为:在优化目标(2)的约束中,显式的允许查询点击核心图中的一个查询节点同时连接到多个网页节点,同时也允许查询点击核心图中的一个网页节点连接多个查询节点;所述权重值重构:如定义1中,查询点击二分图G={Q∪U,E,W},首先,设有aij个用户进行了点击操作;此时,传统构建查询与网页连接边的权重W是用查询qi对应的网页uj的点击次数cij表示,即wij=cij;经过分析我们发现,用户在浏览搜索结果时,有的用户比较活跃,点击次数多,有的点击次数少,由于用户活跃度的差异,导致点击数量不能真正反映查询与网页之间的关联度;为了避免这种偏置现象的出现,我们引入用户频数来代替点击次数,即wij=aij;其次,对于同一个查询,用户点击了两个网页u1和u2,并且点击数量相等,如果u1还被更多地查询点击过,则说明发生在u1上的点击没有u2重要,也就是u1与查询相关度低;因此,可以对每个网页建立逆查询频率,即:式中N表示查询的数量,Nq表示点击到该网页的查询数量;此时,令wij=cij·iqf(u);基于此,还可以利用转移概率理论构建权重;首先计算以下两个概率值:(1)查询会话转移到相关网页的概率:(2)相关网页到查询会话的转移概率:由于转移概率具有不对称性,即P(uj|qi)≠P(qi|uj),因此可以采用线性插值或乘积的方法来均衡权重的对称性,如令wij=α·P(qi|uj)+(1‑α)P(uj|qi)其中α为可调节参数),或者令wij=P(qi|uj)·P(uj|qi);所述推荐算法优化:(1)基础模型:最基本的查询推荐方法是根据查询点击二分图中具有共现点击的查询进行推荐;将这一思想进一步引申,即具有相同点击的查询是相似的,我们要通过随机游走方法将该相似性进行传播;也就是从初始查询出发,在查询点击二分图上根据点击的概率游走到相邻查询,并从相邻查询继续游走;以此迭代,直至结束;随机游走模型有前向和后向两种游走方式;两种游走方式可以用同一组定义来表示;同样,将查询点击二分图定义为G={Q∪U,E,W},令M表示查询的节点数,N表示网页节点数,wij表示查询qi与网页uj的点击权重;构建概率转移矩阵 A=(M+N)×(M+N),则节点转移概率A[i,j]=P(qj|qi),再引入自转移概率s,则新的转移概率P(vj|vi)定义如公式(6);根据给定的初始节点vi,可以进行前向或后向的随机游走迭代;不同之处是前向游走有可能得到查询q在查询点击二分图上最有可能到达的查询q',考虑了初始节点vi游走到其它节点的概率,即:而后向游走可能到达初始查询节点q,考虑了从其它节点游走到初始节点vi的概率,即:(2)问题发现:在上述算法基础上设置参数n和s,n的值表示引入二分图中的节点数量;s表示自转移概率,即在转移过程中不要很快游走到其它节点,将s值设置为0.9;在处理查询推荐时,n的值越大,表示想引入越多的节点进行游走,甚至会包括整个图内所有节点,这样会带来“推荐主题漂移”问题,就是游走到达的查询与用户查询关联度不高;具体存在以下问题:对于向前游走,经过数次迭代之后,转移概率被传播到较为流行的查询上,导致推荐的查询不准确或者不相关;比如查询“人物周刊”,到最后可能推荐“环球人物”和“时代人物”等较流行的刊物;当采用向后游走传播时,概率会趋向均一化,会推荐出拼写有误或者频率较低的查询;传统的推荐模型不能有效区分不同意图的查询,随机游走模型中的查询推荐是利用概率的相似传播进行,会导致部分有紧密关联或非常相似的查询被推荐在最前,使得推荐...

【技术特征摘要】
1.一种基于查询点击图的检索推荐模型优化,其特征在于:包括优化目标构建、权重值重构和推荐算法优化;所述优化目标构建:根据上述内容分析可知,搜...

【专利技术属性】
技术研发人员:贾海龙
申请(专利权)人:新乡学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1