一种计算事件热度系统及方法技术方案

技术编号:31982057 阅读:18 留言:0更新日期:2022-01-20 01:39
本发明专利技术公开了一种计算事件热度系统,包括数据获取模块、信息存储模块、数据分类模块、热度计算模块、数据生成模块,数据获取模块用于使用爬虫技术从互联网爬取海量内容,并将内容发送至信息存储模块,信息存储模块用于对获取的海量内容信息进行储存管理,建立大数据库,数据分类模块用于提取信息储存模块中的的数据,对海量内容文本做主题聚合计算,生成各个事件集合,为热的计算模块提供可用的待分析数据集合。本发明专利技术充分考虑新闻信息文本的内容指标,以特定事件为分析互联网数据内容声量、采用更加全面的指标体系,最终获得该特定事件的事件热度。事件热度。事件热度。

【技术实现步骤摘要】
一种计算事件热度系统及方法


[0001]本专利技术属于内容分析处理领域,尤其涉及一种计算事件热度系统。

技术介绍

[0002]计算机互联网发展迅猛的时代社交网络媒体正日渐崛起,广大用户对其越发依赖,各个用户对新闻信息的需求不同,呈现出用户群体对新闻信息的关注程度不同的自然现象,进行宏观统计后,某些新闻信息被频繁访问,用户关注程度高;某些新闻信息被访问的频率非常低,用户关注程度低。目前可以用新闻信息被播放的次数作为热度值来量化表示用户群体对于新闻信息的关注程度,原有更多偏向事件声量或事件信息阅读数等单项。因此我们对此做出改进,提出一种计算事件热度系统。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题,提供一种计算事件热度系统,充分考虑新闻信息文本的内容指标,以特定事件为分析互联网数据内容声量、采用更加全面的指标体系,最终获得该特定事件的事件热度。
[0004]为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:
[0005]一种计算事件热度系统,包括数据获取模块、信息存储模块、数据分类模块、热度计算模块、数据生成模块;
[0006]所述数据获取模块用于使用爬虫技术从互联网爬取海量内容,并将内容发送至信息存储模块;
[0007]所述信息存储模块用于对获取的海量内容信息进行储存管理,建立大数据库;
[0008]所述数据分类模块用于提取信息储存模块中的的数据,对海量内容文本做主题聚合计算,生成各个事件集合,为热的计算模块提供可用的待分析数据集合;
[0009]所述热度计算模块用于在不同时间对数据源、数据内容声量、时间声量三个维度进行组合计算,得出热度综合分值和时新度综合分值;
[0010]所述数据生成模块根据热度综合分值和时新度综合分值的结合生成用于据以形成行榜单数据。
[0011]进一步地,所述数据获取模块用于采集文本信息、评论次数、转发次数、用户基本信息、用户评论互动信息并发送至信息存储模块。
[0012]进一步地,所述数据分类模块用于提取数据库中的用户基本信息、用户评论互动信息生成文本信息数据源A,文本信息生成数据内容声量B,评论次数、转发次数生成事件声量C,对得到的数据以小时为单位,统计各个时间段内数据源A、内容声量B、事件声量C。
[0013]一种计算事件热度方法:
[0014]S1、进行热点事件新闻和用户信息采集,利用爬虫技术从互联网爬取海量内容,获取到待计算的新闻热点信息、内容转发次数、内容评论次数、用户基本信息、文本信息,并将内容发送至信息存储模块;
[0015]S2、数据分类模块用于提取数据库中的用户基本信息、用户评论互动信息生成文本信息数据源A,文本信息生成数据内容声量B,评论次数、转发次数生成事件声量C,对得到的数据以小时为单位,统计各个时间段内数据源A、内容声量B、事件声量C,然后按照组合公式H=λ1A+λ2B+λ3C构成成业务场景的热度指数模型,也可以进一步对各集合的该值进行标准化处理,统计每个来源的内容在第一预设时间段内的第一操作统计数据和在第二预设时间段内的第二操作统计数据,得出热度综合分值和时新度综合分值;
[0016]S3、生成模块根据热度综合分值和时新度综合分值的结合生成用于据以形成行榜单数据。
[0017]本专利技术的有益效果是:该种计算事件热度系统,充分考虑新闻信息文本的内容指标,以特定事件为分析互联网数据内容声量、采用更加全面的指标体系,最终获得该特定事件的事件热度。
附图说明
[0018]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0019]图1是本专利技术的结构示意图;
[0020]图2是本专利技术的计算过程示意图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0022]在本专利技术的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0023]如图1所示的一种计算事件热度系统,一种计算事件热度系统,包括数据获取模块、信息存储模块、数据分类模块、热度计算模块、数据生成模块,数据获取模块用于使用爬虫技术从互联网爬取海量内容,并将内容发送至信息存储模块,信息存储模块用于对获取的海量内容信息进行储存管理,建立大数据库,数据分类模块用于提取信息储存模块中的的数据,对海量内容文本做主题聚合计算,生成各个事件集合,为热的计算模块提供可用的待分析数据集合;
[0024]如图2所示的一种计算事件热度系统,热度计算模块用于在不同时间对数据源、数据内容声量、时间声量三个维度进行组合计算,得出热度综合分值和时新度综合分值,数据生成模块根据热度综合分值和时新度综合分值的结合生成用于据以形成行榜单数据,数据获取模块用于采集文本信息、评论次数、转发次数、用户基本信息、用户评论互动信息并发送至信息存储模块,数据分类模块用于提取数据库中的用户基本信息、用户评论互动信息生成文本信息数据源A,文本信息生成数据内容声量B,评论次数、转发次数生成事件声量C,
对得到的数据以小时为单位,统计各个时间段内数据源A、内容声量B、事件声量C。
[0025]一种计算事件热度方法:
[0026]S1、进行热点事件新闻和用户信息采集,利用爬虫技术从互联网爬取海量内容,获取到待计算的新闻热点信息、内容转发次数、内容评论次数、用户基本信息、文本信息,并将内容发送至信息存储模块;
[0027]S2、数据分类模块用于提取数据库中的用户基本信息、用户评论互动信息生成文本信息数据源A,文本信息生成数据内容声量B,评论次数、转发次数生成事件声量C,对得到的数据以小时为单位,统计各个时间段内数据源A、内容声量B、事件声量C,然后按照组合公式H=λ1A+λ2B+λ3C构成成业务场景的热度指数模型,也可以进一步对各集合的该值进行标准化处理,统计每个来源的内容在第一预设时间段内的第一操作统计数据和在第二预设时间段内的第二操作统计数据,得出热度综合分值和时新度综合分值;
[0028]S3、生成模块根据热度综合分值和时新度综合分值的结合生成用于据以形成行榜单数据。
[0029]在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本专利技术的至少一个实施例或示例中。在本说明书中,对上述术语的示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算事件热度系统,其特征在于,包括数据获取模块、信息存储模块、数据分类模块、热度计算模块、数据生成模块;所述数据获取模块用于使用爬虫技术从互联网爬取海量内容,并将内容发送至信息存储模块;所述信息存储模块用于对获取的海量内容信息进行储存管理,建立大数据库;所述数据分类模块用于提取信息储存模块中的的数据,对海量内容文本做主题聚合计算,生成各个事件集合,为热的计算模块提供可用的待分析数据集合;所述热度计算模块用于在不同时间对数据源、数据内容声量、时间声量三个维度进行组合计算,得出热度综合分值和时新度综合分值;所述数据生成模块根据热度综合分值和时新度综合分值的结合生成用于据以形成行榜单数据。2.根据权利要求1所述的一种计算事件热度系统,其特征在于,所述数据获取模块用于采集文本信息、评论次数、转发次数、用户基本信息、用户评论互动信息并发送至信息存储模块。3.根据权利要求1所述的一种计算事件热度系统,其特征在于,所述数据分类模块用于提取数据库中的用户基本信息、用户评论互动信息生成文本信息数据源A,文本信息生成数据内容声量B...

【专利技术属性】
技术研发人员:朱旭琪王欢夏茂晋
申请(专利权)人:北京清博智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1