一种网络词热度确定方法和装置制造方法及图纸

技术编号:8387160 阅读:158 留言:0更新日期:2013-03-07 07:49
本发明专利技术公开了一种网络词热度确定方法和装置:接收用户输入的网络词X,获取包括网络词X的页面的页面地址和发布时间;根据获取到的页面地址计算网络词X的地域分布参数,根据获取到的发布时间计算网络词X的时间分布参数,根据计算出的地域分布参数和时间分布参数计算网络词X的热度值,展示给用户。应用本发明专利技术所述方案,能够提高网络词热度确定结果的准确性。

【技术实现步骤摘要】

本专利技术涉及互联网技术,特别涉及一种网络词热度确定方法和装置
技术介绍
网络词热度确定,对有关部门的调研、决策、管理和服务有着重要的参考价值。现有确定方式主要为查询搜索引擎的接口,根据网络词的搜索次数和搜索结果量,按照某种方式计算出一个表征网络词热度的参数,搜索次数和搜索结果量均与网络词热度成正比。但是,这种方式需要依赖于用户在使用搜索引擎时的输入行为,因此有一定的主观性和片面性,不够准确;而且,搜索结果量仅能体现出网络词的出现频率,无法体现出分布情况等信息,也会导致确定结果不准确,比如,如果一网络词只是在某一或某几个页面中出现的频率很高,而在其它页面中很少出现甚至不出现,那么按照现有方式确定出的该网络词的热度也会较高。
技术实现思路
有鉴于此,本专利技术提供了一种网络词热度确定方法和装置,能够提高网络词热度确定结果的准确性。为达到上述目的,本专利技术的技术方案是这样实现的一种网络词热度确定方法,包括接收用户输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间;根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,展示给用户。一种网络词热度确定装置,包括应用程序接口 API,用于接收用户通过用户界面输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间;热度计算模块,用于根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,通过用户界面展示给用户。可见,采用本专利技术所述方案,在确定网络词热度时,无需依赖于用户在使用搜索引擎时的输入行为,而且,充分考虑了网络词的地域分布情况和时间分布情况,从而使得确定结果更为客观和全面,进而提高了确定结果的准确性。附图说明图I为本专利技术方法实施例的流程图。图2为本专利技术装置实施例的组成结构示意图。具体实施例方式针对现有技术中存在的问题,本专利技术中提出一种改进后的网络词热度确定方案,能够提高确定结果的准确性。为使本专利技术的技术方案更加清楚、明白,以下参照附图并举实施例,对本专利技术所述方案作进一步地详细说明。图I为本专利技术方法实施例的流程图。如图I所示,包括以下步骤步骤11 :接收用户输入的网络词X(用网络词X来代表用户输入的任一网络词),获取包括网络词X的页面的页面地址和发布时间。所述页面地址即指页面的统一资源定位符(URL, Uniform Resource Locator)。·本专利技术中,需要建立一个词库和一个网页正文索引库,其中,词库中保存有一系列的网络词,初始阶段,词库中的网络词可由人工输入,网页正文索引库中保存有按照某种方式从各网站中抓取到的各页面的正文内容,以及每篇正文内容的页面地址和发布时间。如何进行抓取为现有技术,另外,对哪些网站进行抓取以及对网站中的哪些页面进行抓取均可根据实际需要而定。之后,利用词库中保存的网络词对每篇正文内容进行分词,S卩如果词库中保存的某一网络词出现在了某一篇正文内容中,则用特殊符号将该网络词在该正文内容中标识出来,如何进行标识不作限制,只要能够识别即可,并用分词后的正文内容对应替换掉分词前的正文内容。词库和网页正文索引库中保存的内容均可实时更新,比如,在对正文内容进行分词后,选取单个字组成的序列,如果某一序列的出现频率大于预设阈值,则将该序列作为新的网络词,补充到词库中。另外,词库中可同时保存有每个网络词被加入到词库中的时间,具体作用后续将会介绍。当接收到用户输入的网络词X后,从网页正文索引库中查询出包括网络词X的页面的页面地址和发布时间。步骤12 :根据获取到的页面地址计算网络词X的地域分布参数,根据获取到的发布时间计算网络词X的时间分布参数,根据地域分布参数和时间分布参数计算网络词X的热度值,展示给用户。本专利技术中在计算网络词X的热度值时,主要考虑两个因素,即网络词X的地域分布情况和时间分布情况,相应地,可计算出网络词X的地域分布参数和时间分布参数,并结合它们对热度值的贡献权重,最终计算出热度值。在实际应用中,可以仅将当前时间对应的热度值展示给用户,也可以将一段时间内的热度值变化趋势展示给用户,为此,本步骤可以有以下两种实现方式。I)方式一将当前时间设置为基准时间T ;计算指定页面地址中的任意每两个页面地址之间的距离之和,将计算结果作为地域分布参数,指定页面地址为步骤11中获取到的各页面地址中对应的发布时间位于T-tl T范围内的页面地址,tl为预定时长;计算指定发布时间中的每个发布时间与T之差的绝对值之和,将计算结果作为时间分布参数,指定发布时间为步骤11中获取到的各发布时间中位于T-tl T范围内的发布时间;根据地域分布参数和时间分布参数计算网络词X的热度值,并展示给用户。其中,计算任意每两个页面地址之间的距离的方式可以为针对任意每两个页面地址,分别获取每个页面地址中的第I k级域名,k为大于I的正整数,如果一页面地址中的域名级数不足k级,则用O补齐,如果域名级数大于k级,则舍弃多余的域名;从第I级域名开始,依次比较两个页面地址中的各级域名是否相同,并将第一个不相同的级别对应的权重作为这两个页面地址之间的距离,如果各级域名均相同,则将O作为这两个页面地址之间的距离;级别越高,对应的权重越小。 下面通过具体示例,对方式一进行进一步说明。 假设针对网络词X共获取到了 m个页面地址和m个发布时间;并且,针对页面地址,预先定义了一个通用模型(假设k的取值为9) http://pn2 · Ρη1/Ρη3/Ρη4/Ρη5/Ρη6/Ρι 7/Pn8/Ρη9 ;其中,Pnl表示一级域名,Pn2表示二级域名,依次类推;比如,对于页面地址http ://labs, chinamobile. com/news/12345, htm,其中的“labs” 即为二级域名,“chinamobile.com”即为一级域名;针对各级域名,分别设置一个权重,级别越高,权重越小。将当前时间设置为基准时间T,得到共η个对应的发布时间位于T-tl T范围内的页面地址以及共η个位于T-tl T范围内的发布时间,m和η均为正整数,η小于或等于m0首先,计算网络词X的地域分布参数,包括a、根据η个页面地址以及上述通用模型得到一个地域分布矩阵权利要求1.一种网络词热度确定方法,其特征在于,包括 接收用户输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间; 根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,展示给用户。2.根据权利要求I所述的方法,其特征在于, 所述接收用户输入的网络词X之前,进一步包括建立词库和网页正文索引库,所述词库中保存有一系列的网络词;抓取各网站中的页面的正文内容,保存到所述网页正文索引库中,并对应保存每篇正文内容的页面地址和发布时间,利用所述词库中保存的网络词对每篇正文内容进行分词,并用分词后的正文内容对应替换掉分词前的正文内容; 所述获取包括所述网络词X的页面的页面地址和发布时间包括本文档来自技高网...

【技术保护点】
一种网络词热度确定方法,其特征在于,包括:接收用户输入的网络词X,获取包括所述网络词X的页面的页面地址和发布时间;根据获取到的页面地址计算所述网络词X的地域分布参数,根据获取到的发布时间计算所述网络词X的时间分布参数,根据所述地域分布参数和所述时间分布参数计算所述网络词X的热度值,展示给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:田冬张远吴淑燕
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1