一种热搜词生成方法及系统技术方案

技术编号:5140741 阅读:299 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种热搜词生成方法及系统,涉及信息处理领域,用以解决现有技术未将搜索请求Query热搜词与垂直门户网页关联,用户的搜索体验有待提升的问题。方法包括:对用户向搜索引擎发起的搜索请求进行存储;对搜索请求进行聚类运算,得出搜索请求簇;确定搜索请求簇中最热门的搜索请求;在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。系统包括:搜索请求存储模块,聚类模块,验证模块,页面搜索模块和挑选模块。本发明专利技术将搜索请求热搜词和垂直门户网页进行验证,可辨别出新闻或事件相关的搜索请求热搜词。

【技术实现步骤摘要】
一种热搜词生成方法及系统
本专利技术涉及信息处理领域,特别涉及一种热搜词生成方法及系统。
技术介绍
随着科技的发展,互联网越来越普遍,出现了许多网络搜索技术。例如搜索引擎 关键词热搜榜,针对用户搜索条件进行统计分析所得热搜词;搜索引擎会针对用户所使用 的搜索条件,提供相关的关键词搜索建议或者关键词(错字)的揪错建议;搜索引擎提供上 述技术方案,让用户可以根据热搜词或者相关关键词搜索建议,进行进一步浏览取得信息。但是现有技术中搜索请求Query热搜词与垂直搜索领域的文本(例如门户网站的 新闻网页)信息相互独立,没有将二者关联,用户的搜索体验还有待提升。
技术实现思路
本专利技术提供了一种热搜词生成方法及系统,用以解决现有技术未将搜索请求 Query热搜词与垂直门户网页关联,用户的搜索体验有待提升的问题;为了进一步提高用 户的搜索感受,经过验证后的热搜词进一步可以对用户作个性化的推送。本专利技术提供了一种热搜词生成方法,包括搜索请求存储步骤对用户向搜索引 擎发起的搜索请求进行存储;聚类步骤对搜索请求进行聚类运算,得出搜索请求簇;验证 步骤确定搜索请求簇中最热门的搜索请求;页面搜索步骤在垂直门户网页中搜索上述 最热门的搜索请求,得出与该搜索请求相匹配的网页数量;挑选步骤取上述网页数量大 于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。根据本专利技术一优选实施例,搜索请求存储步骤中,还一并存储输入搜索请求的时 间。根据本专利技术一优选实施例,聚类步骤中的聚类运算包括凝聚聚类算法、划分式聚 类算法、基于密度的聚类算法,或者网格聚类算法。根据本专利技术一优选实施例,聚类步骤中进一步包括获取单位时间内被存储的搜 索请求;采用基于凝聚的层次聚类算法对上述获取的搜索请求进行运算,得出搜索请求簇。根据本专利技术一优选实施例,基于凝聚的层次聚类算法具体包括若两个所述被获 取的搜索请求之间的编辑距离小于等于第二阈值,则确定该两个搜索请求为同一搜索请求簇。根据本专利技术一优选实施例,验证步骤之前还包括计算聚类步骤中得出的搜索请 求簇的突发热度,当所述突发热度大于第三阈值时,转入验证步骤。根据本专利技术一优选实施例,计算突发热度具体包括分别对搜索请求簇中每一搜 索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该搜索请求的突发热 度;将所述搜索请求簇中各搜索请求的突发热度累加,得出该搜索请求簇的突发热度。根据本专利技术一优选实施例,页面搜索步骤中所述匹配的条件具体为所述最热门 的搜索请求在垂直门户网页中的权值大于第四阈值,则判定相互匹配。根据本专利技术一优选实施例,最热门的搜索请求为搜索频次最高的搜索请求;或者, 最热门的搜索请求为突发热度数值最大的搜索请求;或者,最热门的搜索请求为单位时间 内搜索次数最多的搜索请求。根据本专利技术一优选实施例,在聚类步骤之前还包括过滤步骤获取单位时间内 被存储的搜索请求作为短期搜索请求集合,以及获取至少二个单位时间内被存储的搜索请 求作为历史搜索请求集合;以所述历史搜索请求集合过滤短期搜索请求集合中存在的周期 性突增搜索请求或/和历史事件突增搜索请求,得出过滤后的短期搜索请求,并转入聚类步骤。根据本专利技术一优选实施例,过滤步骤中,得出历史搜索请求集合具体包括获取至 少二个单位时间内被存储的,与短期搜索请求集合中的搜索请求同质的搜索请求;将获取 的搜索请求求并集,得出历史搜索请求集合;以及,以历史搜索请求集合过滤短期搜索请求 集合具体包括短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜 索请求。根据本专利技术一优选实施例,过滤步骤中,得出历史搜索请求集合具体包括非在线 情况下,统计历史热门搜索请求集合;并且分析该历史热门搜索请求集合得到周期性突发 搜索请求集合作为上述历史搜索请求集合;以及,以历史搜索请求集合过滤短期搜索请求 集合具体包括短期搜索请求集合中的搜索请求在上述历史搜索请求集合中,则过滤该搜 索请求。根据本专利技术一优选实施例,在聚类步骤之前还包括过滤步骤获取单位时间内 被存储的搜索请求作为短期搜索请求集合;以作弊搜索请求列表过滤短期搜索请求集合中 存在的作弊搜索请求,得出过滤后的短期搜索请求,并转入聚类步骤。根据本专利技术一优选实施例,作弊搜索请求列表中包括关键词集合,若短期搜索请 求集合中的搜索请求含有上述关键词集合中的关键词,则过滤该搜索请求。根据本专利技术一优选实施例,作弊搜索请求列表生成的过程包括动态获取敏感词; 根据获取的敏感词生成动态的作弊搜索请求列表;若短期搜索请求集合中的搜索请求在上 述动态作弊搜索请求列表中,则过滤该搜索请求。根据本专利技术一优选实施例,在挑选步骤之后还包括用户行为分析步骤进行用 户行为分析,获知用户关注的搜索请求类别;推荐步骤定位所述用户关注的搜索请求类 别与所述热搜词分类所得类别的交集,并将所述交集类别中包含的热搜词作为个性化热搜 词推送给该用户。本专利技术还提供了一种热搜词生成系统,包括搜索请求存储模块,对用户向搜索引 擎发起的搜索请求进行存储;聚类模块,对获取的搜索请求进行聚类运算,得出搜索请求 簇;验证模块,确定所述搜索请求簇中搜索最热门的搜索请求;页面搜索模块,在垂直门户 网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;挑选模块,取上 述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。根据本专利技术一优选实施例,搜索请求存储模块还一并存储输入搜索请求的时间。根据本专利技术一优选实施例,聚类模块预设的聚类运算包括凝聚聚类算法、划分式 聚类算法、基于密度的聚类算法,或者网格聚类算法。根据本专利技术一优选实施例,聚类模块从搜索请求存储模块中获取单位时间内被存7储的搜索请求,并以预设的基于凝聚的层次聚类算法对上述获取的搜索请求进行运算。根据本专利技术一优选实施例,聚类模块中预设的基于凝聚的层次聚类算法是若两个 所述被获取的搜索请求之间的编辑距离小于等于第二阈值,则确定该两个搜索请求为同一 搜索请求簇。根据本专利技术一优选实施例,验证模块先计算聚类模块得出的搜索请求簇的突发热 度,当所述突发热度大于第三阈值时,再确定所述搜索请求簇中搜索最热门的搜索请求。根据本专利技术一优选实施例,验证模块计算突发热度具体是分别对搜索请求簇中每 一搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该搜索请求的突 发热度;将所述搜索请求簇中各搜索请求的突发热度累加,得出该搜索请求簇的突发热度。根据本专利技术一优选实施例,页面搜索模块判断搜索请求与网页相匹配的匹配条件 是所述最热门的搜索请求在垂直门户网页中的权值大于第四阈值,则判定相互匹配。根据本专利技术一优选实施例,最热门的搜索请求为搜索频次最高的搜索请求;或者, 最热门的搜索请求为突发热度数值最大的搜索请求;或者,最热门的搜索请求为单位时间 内搜索次数最多的搜索请求。根据本专利技术一优选实施例,还包括第一过滤模块,用于从搜索请求存储模块中获 取单位时间内被存储的搜索请求作为短期搜索请求集合,以及从搜索请求存储模块中获取 至少二个单位时间内被存储的搜索请求作为历史搜索请求集合;并以所述历史搜索请求集 合过滤短期搜索请求集合中存在的周期性突增搜索请求或/和历史事件突增搜索请求,得 出过滤后的短期搜索请求,并输出到聚类模块。根本文档来自技高网...

【技术保护点】
一种热搜词生成方法,其特征在于,包括下列步骤:搜索请求存储步骤:对用户向搜索引擎发起的搜索请求进行存储;聚类步骤:对搜索请求进行聚类运算,得出搜索请求簇;验证步骤:确定搜索请求簇中最热门的搜索请求;页面搜索步骤:在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;挑选步骤:取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。

【技术特征摘要】
一种热搜词生成方法,其特征在于,包括下列步骤搜索请求存储步骤对用户向搜索引擎发起的搜索请求进行存储;聚类步骤对搜索请求进行聚类运算,得出搜索请求簇;验证步骤确定搜索请求簇中最热门的搜索请求;页面搜索步骤在垂直门户网页中搜索上述最热门的搜索请求,得出与该搜索请求相匹配的网页数量;挑选步骤取上述网页数量大于第一阈值时所关联的搜索请求簇,并从该搜索请求簇中挑选热搜词。2.根据权利要求1所述的热搜词生成方法,其特征在于,所述搜索请求存储步骤中,还 一并存储输入搜索请求的时间。3.根据权利要求1所述的热搜词生成方法,其特征在于,所述聚类步骤中的聚类运算 包括凝聚聚类算法、划分式聚类算法、基于密度的聚类算法,或者网格聚类算法。4.根据权利要求1所述的热搜词生成方法,其特征在于,所述聚类步骤中进一步包括 获取单位时间内被存储的搜索请求;采用基于凝聚的层次聚类算法对上述获取的搜索请求进行运算,得出搜索请求簇。5.根据权利要求4所述的热搜词生成方法,其特征在于,所述基于凝聚的层次聚类算 法具体包括若两个所述被获取的搜索请求之间的编辑距离小于等于第二阈值,则确定该 两个搜索请求为同一搜索请求簇。6.根据权利要求1所述的热搜词生成方法,其特征在于,所述验证步骤之前还包括 计算聚类步骤中得出的搜索请求簇的突发热度,当所述突发热度大于第三阈值时,转入验证步骤。7.根据权利要求6所述的热搜词生成方法,其特征在于,所述计算突发热度具体包括 分别对搜索请求簇中每一搜索请求当前一段时间的搜索频次与昨日同期搜索频次对比计算,得出该搜索请求的突发热度;将所述搜索请求簇中各搜索请求的突发热度累加,得出该搜索请求簇的突发热度。8.根据权利要求1所述的热搜词生成方法,其特征在于,页面搜索步骤中所述匹配的 条件具体为所述最热门的搜索请求在垂直门户网页中的权值大于第四阈值,则判定相互匹配。9.根据权利要求1或8所述的热搜词生成方法,其特征在于,所述最热门的搜索请求为 搜索频次最高的搜索请求;或者,所述最热门的搜索请求为突发热度数值最大的搜索请求; 或者,所述最热门的搜索请求为单位时间内搜索次数最多的搜索请求。10.根据权利要求1所述的热搜词生成方法,其特征在于,在聚类步骤之前还包括过滤步骤获取单位时间内被存储的搜索请求作为短期搜索请求集合,以及获取至少 二个单位时间内被存储的搜索请求作为历史搜索请求集合;以所述历史搜索请求集合过滤短期搜索请求集合中存在的周期性突增搜索请求或/ 和历史事件突增搜索请求,得出过滤后的短期搜索请求,并转入聚类步骤。11.根据权利要求10所述的热搜词生成方法,其特征在于,所述过滤步骤中,得出历史 搜索请求集合具体包括获取至少二个单位时间内被存储的,与所述短期搜索请求集合中的搜索请求同质的搜索请求;将所述获取的搜索请求求并集,得出历史搜索请求集合;以及,所述以历史搜索请求集合过滤短期搜索请求集合具体包括短期搜索请求集合 中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。12.根据权利要求10所述的热搜词生成方法,其特征在于,所述过滤步骤中,得出历史 搜索请求集合具体包括非在线情况下,统计历史热门搜索请求集合;并且分析该历史热 门搜索请求集合得到周期性突发搜索请求集合作为上述历史搜索请求集合;以及,所述以历史搜索请求集合过滤短期搜索请求集合具体包括短期搜索请求集合 中的搜索请求在上述历史搜索请求集合中,则过滤该搜索请求。13.根据权利要求1所述的热搜词生成方法,其特征在于,在聚类步骤之前还包括过滤步骤获取单位时间内被存储的搜索请求作为短期搜索请求集合;以作弊搜索请求列表过滤短期搜索请求集合中存在的作弊搜索请求,得出过滤后的短 期搜索请求,并转入聚类步骤。14.根据权利要求13所述的热搜词生成方法,其特征在于,所述作弊搜索请求列表中 包括关键词集合,若所述短期搜索请求集合中的搜索请求含有上述关键词集合中的关键 词,则过滤该搜索请求。15.根据权利要求13所述的热搜词生成方法,其特征在于,所述作弊搜索请求列表生 成的过程包括动态获取敏感词;根据获取的敏感词生成动态的作弊搜索请求列表;若所述短期搜索请求集合中的搜索请求在上述动态作弊搜索请求列表中,则过滤该搜 索请求。16.根据权利要求1所述的热搜词生成方法,其特征在于,在挑选步骤之后还包括用户行为分析步骤进行用户行为分析,获知用户关注的搜索请求类别;推荐步骤定位所述用户关注的搜索请求类别与所述热搜词分类所得类别的交集,并 将所述交集类别中包含的热搜词作为个性化热搜词推送给该用户。17.一种热搜词生成系统,其特征在于,包括搜索请求存储模块,对用户向搜索引擎发起的搜索请求进行存储;聚...

【专利技术属性】
技术研发人员:彭学政黄炜蔡勋梁刘涛
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1