热点聚合方法及装置制造方法及图纸

技术编号:7851434 阅读:295 留言:0更新日期:2012-10-13 08:19
本发明专利技术公开了一种热点聚合方法及装置。该方法包括:抓取互联网上的网络资源;采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。借助于本发明专利技术的技术方案,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别是涉及ー种热点聚合方法及装置
技术介绍
在现有技术中,热点聚合方法可以应用在电子布告栏系统(Bulletin BoardSystem,简称为BBS)和博客(BLOG)上,也可以应用在网页、新闻、以及微博等数据上。目前,各搜索引擎都会提供热榜之类的产品,例如,百度的搜索风云榜,搜搜的热榜等,在现有技术中,热点聚合的实现方法基本有两种方法1,利用用户的查询日志,按周期进行统计,对查询串进行分词,提取关键词, 根据查询次数排序得到热词榜。方法2,对网页标题或内容进行中心词的抽取,按中心词进行聚合,计算出热点事件。方法I是基于统计进行热点事件计算的,因而会有一定的滞后性,不能及时发现热点事件。此外,上述两种方法都基于分词技木,而分词是基于词典的,而利用分词技术本身就会对新词的发现有一定的滞后性,从而会导致ー些新的热词及热门事件不能及时发现,此外,上述两种方法的效果太过依赖于分词技术,需要进行词典维护,还具有一定的运维成本
技术实现思路
本专利技术提供ー种热点聚合方法及装置,以解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网络热点聚合方法,其特征在于,包括 抓取互联网上的网络资源; 采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果; 根据所述匹配结果生成热点词组。2.如权利要求I所述的方法,其特征在于,根据所述匹配结果生成热点词组具体包括 设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数; 获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。3.如权利要求I所述的方法,其特征在于,所述抓取互联网上的网络资源具体包括 从分布式文件系统中获取以预定时间周期分割后的网络资源。4.如权利要求I或2或3所述的方法,其特征在于,抓取互联网上的网络资源之后,所述方法还包括 对所述网络资源进行过滤。5.如权利要求4所述的方法,其特征在于,对所述网络资源进行过滤的处理具体包括以下至少之一 根据预先配置的域名列表,滤除指定域名的网络资源; 根据预先配置的网络白名单,保留与所述网络白名单相应的网络资源; 根据网页的浏览数对所述网络资源进行过滤; 根据网页的发布日期对所述网络资源进行过滤; 根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤; 对所述网络资源的标题中的无用信息进行过滤; 对所述网络资源中的常用词进行过滤。6.如权利要求I所述的方法,其特征在于,根据所述匹配结果生成热点词组之后,所述方法还包括 获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。7.如权利要求6所述的方法,其特征在于,根据所述匹配结果生成热点词组之后,所述方法还包括 采用LCS算法对所述热点词组再次进行匹配,生成关键词组; 将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储具体包括 将每个关键词组、与所述关键词组相对应的热点词组、以及与所述热点词组相关的网络资源的标识作为一个热点组进行存储。8.如权利要求I所述的方法,其特征在于, 采用LCS算法对所述网络资源进行匹配,获取匹配结果具体包括 通过所述LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算所述矩阵中对角线最长的匹配序列,根据所述匹配序列在所述矩阵中的位置,获取最长匹配子串的位置; 根据所述匹配结果生成热点词组具体包括根据所述最长匹配子串的位置生成热点词组。9.如权利要求6或7所述的方法,其特征在于,在将所述热点组进行存储之后,所述方法还包括 对存储的所述热点组中的热点数据进行统计分析、展现、和/或查询。10.一种热...

【专利技术属性】
技术研发人员:马良
申请(专利权)人:奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1