一种流行检索词的挖掘、推荐方法及装置制造方法及图纸

技术编号:8907119 阅读:158 留言:0更新日期:2013-07-11 04:47
本发明专利技术适用于信息处理领域,提供了一种流行检索词的挖掘、推荐方法及装置,所述方法包括下述步骤:对历史检索词进行预处理;计算所述预处理后检索词的查询密度、查询热度以及点击度;根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。本发明专利技术可提高流行检索词的挖掘准确率,解决现有技术对新兴词汇挖掘不及时以及某些词汇由于作弊或者搜索信息的无效而挖掘不准确的问题。

【技术实现步骤摘要】

本专利技术属于信息处理领域,尤其涉及一种流行检索词的挖掘、推荐方法及装置
技术介绍
随着网络的发展,网络信息更新的速度也越来越快,如何使用户能够最快的获取最新的而且是其感兴趣的网络信息呢?网络流行检索词的挖掘与推荐是解决该问题的关键。现有网络流行检索词的挖掘和推荐方法主要是按照词汇的搜索量来排序,将搜索量高的一个或者多个词汇作为流行检索词推荐给用户。然而,对于新出现的网络词汇,在初始阶段其搜索量可能并不高,如果仅按搜索量排序会造成对新词汇捕捉的不及时。另外,对于某些搜索量很高的词汇,其点击量可能并不高,原因大多是用户输入该词汇却无法搜索到想要的结果,或者是用户通过作弊等手段,人为的提高某些词汇的搜索量,如果将这些词汇推荐给用户,会严重影响到用户的体验及满意度。
技术实现思路
本专利技术实施例提供一种流行检索词的挖掘方法,旨在解决现有技术在挖掘流行检索词时,挖掘不够及时及不够准确的问题。本专利技术实施例是这样实现的,一种流行检索词的挖掘方法,所述方法包括以下步骤:对历史检索词进行预处理;计算所述预处理后检索词的查询密度、查询热度以及点击度;根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。一种流行检索词的推荐方法,所述方法包括所述的流行检索词的挖掘方法,以及根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于I。本专利技术实施例的另一目的在于提供一种流行检索词的挖掘装置,所述装置包括:预处理单元,用于对历史检索词进行预处理;计算单元,用于计算所述预处理后检索词的查询密度、查询热度以及点击度;流行度获取单元,用于根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。一种流行检索词的推荐装置,所述推荐装置包括所述的流行检索词的挖掘装置,以及推荐单元,用于根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于I。从上述技术方案可以看出,本专利技术实施例根据计算得到的查询密度、查询热度以及点击度来获取预处理后检索词的流行度,由于查询密度能更好的反应用户对检索词的关注程度,查询热度能更好的反应用户关注程度的上升或下降趋势,点击度能更好的反应搜索结果的有效性,使得挖掘到的检索词能够更好的反应其流行度,从而有效解决现有技术单纯依靠词汇的搜索量进行排序,造成新兴词汇挖掘不及时以及某些词汇由于作弊或者搜索信息的无效而挖掘不准确的问题。另外,本专利技术实施例还可以根据应用场景和用户属性的不同,将挖掘到的流行度最高的一个或者多个检索词推荐给对所述检索词感兴趣的用户,从而提闻用户的满意度。附图说明图1是本专利技术实施例一提供的流行检索词的挖掘方法的实现流程图;图2是本专利技术实施例一提供的流行检索词挖掘结果的示例图;图3是本专利技术实施例二提供的流行检索词的推荐方法的实现流程图;图4是本专利技术实施例三提供的流行检索词的挖掘装置的组成结构图;图5是本专利技术实施例四提供的流行检索词的挖掘装置的组成结构图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例通过计算预处理后检索词的查询密度、查询热度以及点击度,根据计算得到的查询密度、查询热度以及点击度来获取所述预处理后检索词的流行度,并根据应用场景和用户属性的不同,将挖掘到的流行度最高的一个或者多个检索词推荐给对所述检索词感兴趣的用户,提高了用户对推荐的流行检索词的满意度,并有效解决了现有技术单纯依靠词汇的搜索量进行排序,造成新兴词汇挖掘不及时以及某些词汇由于作弊或者搜索信息的无效而挖掘不准确的问题。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一:图1示出了本专利技术实施例一提供的流行检索词的挖掘方法的实现流程,该方法过程详述如下:在步骤SlOl中,对历史检索词进行预处理。在本实施例中,在对检索词进行挖掘前,需要对搜索日志(不局限于此)中的历史检索词进行预处理。其中,所述历史检索词包括所述检索词每天的搜索量(Query View,QV)、结果点击次数等信息。所述预处理包括但不局限于去导航处理以及去重处理。其中,去导航处理指的是过滤以导航为目的的检索词,例如“优酷”、“youku”、“百度”、“QQ”等;去重处理指的是把有相同目的或者相同含义的检索词归并到一起,以方便对该检索词的搜索量进行更准确的统计。比如“优酷”和“youku”、“百度”和“baidu”、“4399”和“4399游戏”等。本实施例在去导航和去重处理过程中采用了线性设计方法,使得查询和点击百万级关键词拟合到一起的时间复杂度为0(max(n,m))(原先复杂度为O(n*m)),极大提升了处理性能。在步骤S102中,计算所述预处理后检索词的查询密度、查询热度以及点击度。在本实施例中,查询密度考虑了时间衰减的QV量,即距离当日时间越久远的QV折扣越大,通过查询密度能更好的反应用户对检索词的关注程度。其中,查询密度的一种计算方法如下:权利要求1.一种流行检索词的挖掘方法,其特征在于,所述方法包括以下步骤: 对历史检索词进行预处理; 计算所述预处理后检索词的查询密度、查询热度以及点击度; 根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。2.如权利要求1所述的方法,其特征在于,所述预处理包括去导航处理以及去重处理。3.如权利要求1所述的方法,其特征在于,所述查询密度的计算公式为:4.如权利要求1所述的方法,其特征在于,所述查询热度的计算公式为:5.如权利要求1所述的方法,其特征在于,所述点击度的计算公式为:6.如权利要求1所述的方法,其特征在于,所述流行度的计算公式为:score= (intensity) α X (recency) 0 X (clickability) Y,其中 int ensity 为查询密度,recency 为查询热度,clickability为点击度,α、β、λ分别为预先设置的权重参数。7.一种流行检索词的推荐方法,其特征在于,所述方法包括如权利要求1至6任一项所述的流行检索词的挖掘方法,以及 根据应用场景和用户属性,将流行度最高的前N个检索词推荐给对应的用户,所述N大于等于I。8.一种流行检索词的挖掘装置,其特征在于,所述装置包括: 预处理单元,用于对历史检索词进行预处理; 计算单元,用于计算所述预处理后检索词的查询密度、查询热度以及点击度; 流行度获取单元,用于根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。9.如权利要求8所述的装置,其特征在于,所述预处理包括去导航处理以及去重处理。10.如权利要求8所述的装置,其特征在于,所述查询密度的计算公式为:11.如权利要求8所述的装置,其特征在于,所述查询热度的计算公式为:12.如权利要求8所述的装置,其特征在于,所述点击度的计算公式为: 1 click _ qv.clickbility ==^ ,其中t为计算点击度的总的时间量,qVi为当前词汇第i天的搜索量,click_qVi为当前词汇第i天的点击量。13.如权利要求8所述的装置,其特征在于,所述本文档来自技高网...
一种流行检索词的挖掘、推荐方法及装置

【技术保护点】
一种流行检索词的挖掘方法,其特征在于,所述方法包括以下步骤:对历史检索词进行预处理;计算所述预处理后检索词的查询密度、查询热度以及点击度;根据计算得到的查询密度、查询热度以及点击度,获取所述预处理后检索词的流行度。

【技术特征摘要】

【专利技术属性】
技术研发人员:潘璇程刚李鹤林伟坚周霄骁吴志坚刘新鸣庄子明邹永林松
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1