一种网页推荐方法和装置制造方法及图纸

技术编号:9198219 阅读:126 留言:0更新日期:2013-09-26 02:25
本发明专利技术提供了一种网页推荐方法和装置,该方法包括:获取点击查询日志,所述点击查询日志包括用户ID、关键词、以及网页ID;汇总每个用户ID的关键词信息,建立该用户ID的兴趣模型;汇总所有用户ID的网页ID,获取每个网页ID对应的网页中的关键词信息,建立该网页ID的兴趣模型;根据用户ID的兴趣模型和网页ID的兴趣模型确定用户ID和网页ID的关联度;当接收到用户的点击搜索结果命令进入无线网页搜索转码页时,按照和用户ID的关联度从高到低的顺序选择第一预设个数的网页ID,将选择的每个网页ID对应的网页在该转码页中进行推荐。本发明专利技术能够快速查找到目标网页。

【技术实现步骤摘要】
一种网页推荐方法和装置
本专利技术涉及数据挖掘
,特别涉及一种网页推荐方法和装置。
技术介绍
随着手机上网用户的增长,通过手机终端进行搜索的行为也越来越多,为了帮助用户能够查询到需要的信息,无线搜索引擎通常会在用户点击的无线网页搜索转码页中提供和该网页相关的一些关键词供用户进行点击查询,或者是提供和当前查询串相关的关键词供用户进行点击查询。然而,目前业界这种在用户搜索并点击某一无线网页搜索转码页面进行浏览时提供相关的关键词供用户点击查询的方式,实质在于减小搜索范围,提高搜索准确度,帮助用户得到更理想的搜索结果,但是,这也使得用户需要再次选择查询串进行搜索,并再次查看搜索结果才能够找到感兴趣的网页,中间过程比较长。
技术实现思路
有鉴于此,本专利技术在于提供一种网页推荐方法,该方法能够快速查找到目标网页。为了达到上述目的,本专利技术提供了一种网页推荐方法,该方法包括:获取点击查询日志,所述点击查询日志包括用户ID、关键词、以及网页ID;汇总每个用户ID的关键词信息,建立该用户ID的兴趣模型;汇总所有用户ID的网页ID,获取每个网页ID对应的网页中的关键词信息,建立该网页ID的兴趣模型本文档来自技高网...

【技术保护点】
一种网页推荐的方法,其特征在于,该方法包括:获取点击查询日志,所述点击查询日志包括用户ID、关键词、以及网页ID;汇总每个用户ID的关键词信息,建立该用户ID的兴趣模型;汇总所有用户ID的网页ID,获取每个网页ID对应的网页中的关键词信息,建立该网页ID的兴趣模型;根据用户ID的兴趣模型和网页ID的兴趣模型确定用户ID和网页ID的关联度;当接收到用户的点击搜索结果命令进入无线网页搜索转码页时,按照和用户ID的关联度从高到低的顺序选择第一预设个数的网页ID,将选择的每个网页ID对应的网页在该转码页中进行推荐。

【技术特征摘要】
1.一种网页推荐的方法,其特征在于,该方法包括:获取点击查询日志,所述点击查询日志包括用户ID、关键词、以及网页ID;汇总每个用户ID的关键词,建立该用户ID的兴趣模型;汇总所有用户ID的网页ID,获取每个网页ID对应的网页中的关键词,建立该网页ID的兴趣模型;根据用户ID的兴趣模型和网页ID的兴趣模型确定用户ID和网页ID的关联度;其中,所述汇总所有用户ID的网页ID,获取每个网页ID对应的网页中的关键词,建立该网页ID的兴趣模型包括:对该网页ID对应的网页的内容进行分词,去除无效词,统计剩余的每个关键词在该网页中的出现次数,根据该关键词的出现次数确定该网页ID对该关键词的兴趣度;所述汇总每个用户ID的关键词,建立该用户ID的兴趣模型包括:汇总该用户ID对应的用户查询过的所有关键词,统计该用户查询每个关键词时点击网页ID的个数,根据点击网页ID的个数确定该用户ID对该关键词的兴趣度;当接收到用户的点击搜索结果命令进入无线网页搜索转码页时,按照和用户ID的关联度从高到低的顺序选择第一预设个数的网页ID,将选择的每个网页ID对应的网页在该转码页中进行推荐。2.根据权利要求1所述的网页推荐方法,其特征在于,所述用户ID的兴趣模型包括第一兴趣项,所述第一兴趣项包括多个第一兴趣子项,所述第一兴趣子项包括关键词、用户ID对关键词的兴趣度;所述网页ID的兴趣模型包括第二兴趣项,所述第二兴趣项包括多个第二兴趣子项,所述第二兴趣子项包括关键词、网页ID对关键词的兴趣度。3.根据权利要求2所述的网页推荐方法,其特征在于,所述根据用户ID的兴趣模型和网页ID的兴趣模型确定用户ID和网页ID的关联度包括:根据每个用户ID的兴趣模型中用户ID对各个关键词的兴趣度生成N维向量VK1;根据每个网页ID的兴趣模型中网页ID对各个关键词的兴趣度生成N维向量VK2;计算N维向量VK1和VK2间的距离DK,将DK记为该用户ID和该网页ID间的关联度。4.根据权利要求2所述的网页推荐方法,其特征在于,所述用户ID的兴趣模型包括第三兴趣项,所述第三兴趣项包括多个第三兴趣子项,所述第一兴趣子项包括关键词类型、用户ID对关键词类型的兴趣度;所述汇总每个用户ID的关键词,建立该用户ID的兴趣模型包括:汇总该用户ID对应的用户查询过的所有关键词并确定每个关键词所属类型;统计该用户查询每类关键词时点击网页ID的个数,根据点击网页ID的个数确定该用户ID对该类关键词的兴趣度;所述网页ID的兴趣模型包括第四兴趣项,所述第四兴趣项包括多个第四兴趣子项,所述第四兴趣子项包括关键词类型、网页ID对关键词类型的兴趣度;所述汇总所有用户ID的网页ID,获取每个网页ID对应的网页中的关键词,建立该网页ID的兴趣模型包括:对该网页ID对应的网页的内容进行分词,去除无效词,确定剩余每个关键词所属类型,统计每类关键词在该网页中的出现次数,根据该类关键词的出现次数确定该网页ID对该类关键词的兴趣度。5.根据权利要求4所述的网页推荐方法,其特征在于,所述根据用户ID的兴趣模型和网页ID的兴趣模型确定用户ID和网页ID的关联度包括:根据每个用户ID的兴趣模型中用户ID对各类关键词的兴趣度生成N维向量VC1;根据每个网页ID的兴趣模型中网页ID对各类关键词的兴趣度生成N维向量VC2;计算N维向量VC1和VC2间的距离DC,将DC记为该用户ID和该网页ID间的关联度。6.根据权利要求1所述的网页推荐方法,其特征在于,所述用户ID的兴趣模型包括第一兴趣项,第三兴趣项;所述第一兴趣项包括多个第一兴趣子项,所述第一兴趣子项包括关键词、用户ID对关键词的兴趣度;所述第三兴趣项包括多个第三兴趣子项,所述第三兴趣子项包括关键词类型、用户ID对关键词类型的兴趣度;所述汇总每个用户ID的关键词,建立该用户ID的兴趣模型包括:汇总该用户ID对应的用户查询过的所有关键词并确定每个关键词所属类型;统计该用户查询每个关键词时点击网页ID的个数,根据该用户点击网页ID的个数确定该用户ID对该关键词的兴趣度;统计该用户查询每类关键词时点击网页ID的个数,根据该用户点击网页ID的个数确定该用户ID对该类关键词的兴趣度;所述网页ID的兴趣模型包括第二兴趣项,第四兴趣项;所述第二兴趣项包括多个第二兴趣子项,所述第二兴趣子项包括关键词、网页ID对关键词的兴趣度;所述第四兴趣项包括多个第四兴趣子项,所述第四兴趣子项包括关键词类型、网页ID对关键词类型的兴趣度;所述汇总所有用户ID的网页ID,获取每个网页ID对应的网页的关键词,建立该网页ID的兴趣模型包括:对该网页ID对应的网页的内容进行分词,去除无效词,统计剩余每个关键词在该网页中的出现次数,根据该关键词的出现次数确定该网页ID对该关键词的兴趣度;确定每个关键词所属类型,统计每类关键词在该网页中的出现次数,根据该类关键词的出现次数确定该网页ID对该类关键词的兴趣度。7.根据权利要求6所述的网页推荐方法,其特征在于,所述根据用户ID的兴趣模型和网页ID的兴趣模型确定用户ID和网页ID的关联度包括:根据每个用户ID的兴趣模型中用户ID对各个关键词的兴趣度生成N维向量VK1;根据每个用户ID的兴趣模型中用户ID对各类关键词的兴趣度生成N维向量VC1;根据每个网页ID的兴趣模型中网页ID对各个关键词的兴趣度生成N维向量VK2,根据每个网页ID的兴趣模型中网页ID对各类关键词的兴趣度生成N维向量VC2;计算N维向量VK1和VK2间的距离DK,以及N维向量VC1和VC2间的距离DC,对所述DK和DC进行加权计算得到该用户ID和该网页ID间的关联度。8.根据权利要求7所述的网页推荐方法,其特征在于,对所述DK和DC进行加权计算得到该用户ID和该网页ID间的关联度的方法为采用以下公式:D=a×DK+(1-a)×DC,其中,D为该用户ID和该网页ID间的关联度,a是预设值,且,a是大于0且小于1的实数。9.根据权利要求1所述的网页推荐方法,其特征在于,该方法进一步包括:汇总预设时间内所有用户ID对应的用户查询过的每个关键词,针对查询该关键词的每个用户ID,在该用户点击的任意两个网页ID之间建立关联关系;汇总预设时间内查询该关键词的所有用户点击的网页ID,针对每个网页ID,统计该网页ID对应的每个关联关系的出现次数,根据每个关联关系的出现次数确定该网页ID与和该网页ID具有关联关系的网页ID之间的关联度;当接收到用户的点击搜索结果命令进入无线网页搜索转码页时,进一步按照和该转码页的关联度从高到低的顺序选择第二预设个数的网页ID,将选择的每个网页ID对应的网页在该转码页中进行推荐。10.根据权利要求1所述的网页推荐方法,其特征在于,该方法进一步包括:获取每个关键词对应的搜索结果列表,针对该关键词对应的搜索结果列表中的每个网页ID,获取该网页ID对应的网页的关键词,生成该网页ID对应的特征向量;根据每个关键词对应的搜索结果列表中的所有网页ID对应的特征向量,生成该关键词对应的一个或多个网页聚类;当接收到用户的点击搜索结果命令进入无线网页搜索转码页时,进一步在该用户搜索的关键词对应的一个或多个网页聚类中查找该转码页所在的网页聚类,在查找到的网页聚类中选择第三预设个数的网页ID,将选择的每个网页ID对应的网页在该转码页中进行推荐。11.根据权利要求10所述的网页推荐方法,其特征在于,所述获取该网页ID对应的网页的关键词,生成该网页ID对应的特征向量的方法为:对该网页ID对应的网页的内容进行分词,去掉无效词,统计剩余的每个关键词在该网页中的出现次数,根据每个关键词在该网页中的出现次数生成该网页ID对应的特征向量;所述根据每个关键词对应的搜索结果列表中的所有网页ID对应的特征向量,生成该关键词对应的一个或多个网页聚类的方法为:对该关键词对应的搜索结果列表中的所有网页ID对应的特征向量采用K最邻近KNN分类算法进行聚类。12.一种网页推荐装置,其特征在于,该装置包括:日志获取单元、第一分析单元、推荐单元;所述日志获取单元,用于获取点击查询日志,所述点击查询日志包括用户ID、关键词、以及网页ID;所述第一分析单元,用于汇总点击查询日志中每个用户ID的关键词,建立该用户ID的兴趣模型;汇总点击查询日志中所有用户I...

【专利技术属性】
技术研发人员:王犇何军杨志峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1