一种热点数据实时计算方法技术

技术编号:39778830 阅读:25 留言:0更新日期:2023-12-22 02:24
本发明专利技术提供一种热点数据实时计算方法

【技术实现步骤摘要】
一种热点数据实时计算方法、系统、设备及存储介质


[0001]本专利技术涉及热点数据计算领域,具体而言,涉及一种热点数据实时计算方法

系统

设备及存储介质


技术介绍

[0002]随着互联网的迅猛发展和数字化信息的爆炸增长,越来越多的文章被发布和传播,使得用户面临着信息过载的问题

在这样的环境下,能够准确识别和提供热点内容变得至关重要,以便用户能够快速访问和消费最有价值的信息

传统的热点数据计算方法主要依赖于批处理技术,首先需要将数据收集并存储在数据仓库中,然后进行离线处理

然而,这种批处理技术存在一定的延迟,无法满足对实时性要求较高的场景

此外,随着数据规模和数据变化的增加,传统批处理技术在处理大规模数据流和长时间窗口时面临着性能和效率的挑战

[0003]为了解决传统批处理技术存在的问题,流处理技术应运而生
。Kafka Streams
是一种常用的流处理框架,它能够提供方便的数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种热点数据实时计算方法,其特征在于,所述方法流程如下:基于
Flink
的连接器对消息主题进行订阅,以获取包含文章行为数据的数据流;基于
Flink
的时间窗口操作对数据流进行分段处理,以获取同一时间窗口内的数据流;基于
Flink
的聚合函数对同一时间窗口内的数据流进行聚合计算,以获取同一时间窗口内的文章总值,并且将文章总值关联到对应的文章,以获取关联文章总值的文章信息;基于
Flink
的连接器对关联文章总值的文章进行筛选

存储以及更新处理,以获取待展示的热门文章
。2.
根据权利要求1所述的一种热点数据实时计算方法,其特征在于,所述文章行为数据的数据流包括文章的浏览量

点赞量

评论量以及收藏量
。3.
根据权利要求2所述的一种热点数据实时计算方法,其特征在于,基于
Flink
的时间窗口操作对数据流进行分段处理之前,需要对数据流中的每条数据进行预处理
。4.
根据权利要求3所述的一种热点数据实时计算方法,其特征在于,对数据流中的每条数据进行预处理的流程如下:对数据流中的每条数据进行数据解析处理和数据提取处理,以获得文章的浏览量

点赞量

评论量以及收藏量;根据预设的权重值对文章的浏览量

点赞量

评论量以及收藏量进行加权处理,以得到文章分值
。5.
根据权利要求4所述的一种热点数据实时计算方法,其特征在于,获取关联文章总值的文章信息的流程如下:通过
Flink
的聚合函数对同一时间窗口内的每个文章的文章分值进行累加计算,以得到每个文章在同一时间窗口内的文章总值;将同一时间窗口内的文章总值关联到对应的文章中,以获取关联文章总值的...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名
申请(专利权)人:成都数之联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1