突发时效性查询词识别方法和系统技术方案

技术编号:10332899 阅读:258 留言:0更新日期:2014-08-20 18:10
本发明专利技术提供了一种突发时效性查询词识别方法和系统,方法包括:分别计算查询词在第一段时间内和第二段时间内的查询量变化趋势,第二段时间为第一段时间的一部分;比较查询词在第一段时间和第二段时间内的查询量变化趋势之间的差距,并根据差距的大小判断查询词是否为突发时效性查询词。本发明专利技术的技术方案中比较的是查询词在一段时间内查询量的长期变化趋势与短期变化趋势,即使查询词的查询量维持在较小的数量级,查询量的突增情况也可以明显地体现在查询量变化趋势的差距中,有利于识别出突发时效性查询词。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种突发时效性查询词识别方法和系统,方法包括:分别计算查询词在第一段时间内和第二段时间内的查询量变化趋势,第二段时间为第一段时间的一部分;比较查询词在第一段时间和第二段时间内的查询量变化趋势之间的差距,并根据差距的大小判断查询词是否为突发时效性查询词。本专利技术的技术方案中比较的是查询词在一段时间内查询量的长期变化趋势与短期变化趋势,即使查询词的查询量维持在较小的数量级,查询量的突增情况也可以明显地体现在查询量变化趋势的差距中,有利于识别出突发时效性查询词。【专利说明】突发时效性查询词识别方法和系统
本专利技术涉及计算机
,具体而言,涉及一种突发时效性查询词识别方法和系统。
技术介绍
突发时效性查询词是短时间内用户对其的查询量较之前明显变大的查询词,所以突发时效性查询词往往反映的是一个新的事件的爆发,引发用户对事件的关注,其具有很强的时效性。因此,及时识别出突发时效性查询词,并根据突发时效性查询词来调整搜索引擎中新闻的排名,可以有效提升用户对新闻的搜索体验,改善搜索引擎的质量。现有的识别突发时效性查询词的方法,是根据查询词在当前时间段的查询量和在前一段时间的查询量比较,差值越大越说明该查询词可能是当前时间段的突发时效性查询ο上述技术方案的缺点在于,如两段时间内查询词的查询量维持较小的量级,则可能造成查询词的查询量出现了突增但差值却较小的情况,而差值过小则造成无法识别出该突发时效性查询词,例如:1、一些查询量大的查询词的查询量改变会掩盖突发时效性查询词,比如,查询词A的查询量由10000变为11000,那么差值就为1000,而突发时效性查询词的查询量由100变为200,查询量虽然翻倍但差 值仅为100,与查询词A差值相比较小,无法体现出查询量的突增变化,造成难以识别出该突发时效性查询词。2、一般地,统计查询量的时间段设置的比较小(如按小时设置),由于查询词的查询量受时间影响较大,在凌晨时段的整体查询量较小,在凌晨比较查询量得到的差值也较小,所以难以识别出突发时效性查询词;如为了克服该问题,将时间段设置的比较大(如按天设置),进行不同时间段的查询量比较的时间间隔就比较久,那么突发时效性查询词会更新比较慢。所以,本专利技术需要解决的技术问题在于,提供一种新的识别突发时效性查询词的技术方案,保证即使在查询词的查询量始终维持在较小量级的情况下,也能有效地识别出突发时效性查询词。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的突发时效性查询词识别方法和系统。依据本专利技术的一个方面,提供了一种突发时效性查询词识别方法,其包括:分别计算查询词在第一段时间内和第二段时间内的查询量变化趋势,所述第二段时间为所述第一段时间的一部分;比较所述查询词在所述第一段时间和所述第二段时间内的查询量变化趋势之间的差距,并根据所述差距的大小判断所述查询词是否为突发时效性查询词。可选地,前述的突发时效性查询词识别方法,所述分别计算查询词在第一段时间内和第二段时间内的查询量变化趋势的步骤包括:按预设长度的时间段,连续多次统计所述查询词的查询量;取最近的连续m个时间段为所述第一段时间,并根据所述查询词在所述m个时间段内的查询量,确定所述查询词在所述第一段时间内的查询量变化趋势,m为整数;取最近的连续η个时间段为所述第二段时间,并根据所述查询词在所述η个时间段内的查询量,确定所述查询词在所述第二段时间内的查询量变化趋势,η为小于m的整数。可选地,前述的突发时效性查询词识别方法,所述比较所述查询词在所述第一段时间和所述第二段时间内的查询量变化趋势之间的差距的步骤包括:取反映所述查询词在所述第一段时间内的查询量变化趋势的第一轨迹线,以及反映所述查询词在所述第二段时间内的查询量变化趋势的第二轨迹线,并将所述第一轨迹线以及所述第二轨迹线的夹角作为所述差距。可选地,前述的突发时效性查询词识别方法,还包括:获取所述查询词对应的多个搜索结果条目,所述多个搜索结果条目中包含新闻信息条目;为所述多个搜索结果条目分别设置权值;在所述查询词为突发时效性查询词时,增大所述新闻信息条目的权值;根据所述多个搜索结果条目的权值大小,在所述查询词对应的搜索结果页上,确定所述多个搜索结果条目的排名位置。依据本专利技术的另一方面,提供了一种突发时效性查询词识别系统,其包括:变化趋势计算模块,用于分别计算查询词在第一段时间内和第二段时间内的查询量变化趋势,所述第二段时间为所述第一段时间的一部分;识别模块,用于比较所述查询词在所述第一段时间和所述第二段时间内的查询量变化趋势之间的差距,并根据所述差距的大小判断所述查询词是否为突发时效性查询词。可选地,前述的突发时效性查询词识别系统,还包括:查询量统计模块,用于按预设长度的时间段,连 续多次统计所述查询词的查询量;所述变化趋势计算模块取最近的连续m个时间段为所述第一段时间,并根据所述查询词在所述m个时间段内的查询量,确定所述查询词在所述第一段时间内的查询量变化趋势,m为整数;所述变化趋势计算模块取最近的连续η个时间段为所述第二段时间,并根据所述查询词在所述η个时间段内的查询量,确定所述查询词在所述第二段时间内的查询量变化趋势,η为小于m的整数。可选地,前述的突发时效性查询词识别系统,所述识别模块取反映所述查询词在所述第一段时间内的查询量变化趋势的第一轨迹线,以及反映所述查询词在所述第二段时间内的查询量变化趋势的第二轨迹线,并将所述第一轨迹线以及所述第二轨迹线的夹角作为所述差距。可选地,前述的突发时效性查询词识别系统,还包括:搜索结果条目获取模块,用于获取所述查询词对应的多个搜索结果条目,所述多个搜索结果条目中包含新闻信息条目;权值设置模块,用于为所述多个搜索结果条目分别设置权值;权值调整模块,用于在所述查询词为突发时效性查询词时,增大所述新闻信息条目的权值;排名位置确定模块,用于根据所述多个搜索结果条目的权值大小,在所述查询词对应的搜索结果页上,确定所述多个搜索结果条目的排名位置。根据以上技术方案,本专利技术的突发时效性查询词识别方法和系统至少有以下优占-^ \\\.由于第二段时间为第一段时间的一部分,所以本专利技术的技术方案中比较的是查询词在一段时间内查询量的长期变化趋势与短期变化趋势,如果第一段时间内查询词的查询量变化趋势表现为缓慢增加,而在第二段时间内查询词的查询量变化趋势表现为急速增力口,则变化趋势的差距就说明突发地出现大量用户关注该查询词的相关新闻,并在搜索引擎中进行查询,则该查询词必然是突发时效性查询词;查询词的查询量变化趋势与其查询量无关,即使查询词的查询量维持在较小的数量级,查询量的突增情况也可以明显地体现在查询量变化趋势的差距中,有利于识别出突发时效性查询词,而不受到较大查询量的查询词干扰,不受到整体查询量较小的时间段影响。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【专利附图】【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出本文档来自技高网
...

【技术保护点】
一种突发时效性查询词识别方法,其包括:分别计算查询词在第一段时间内和第二段时间内的查询量变化趋势,所述第二段时间为所述第一段时间的一部分;比较所述查询词在所述第一段时间和所述第二段时间内的查询量变化趋势之间的差距,并根据所述差距的大小判断所述查询词是否为突发时效性查询词。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏文杰常富洋秦吉胜周鸿祎
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1