一种提升Flink实时计算框架数据处理效率的方法技术

技术编号：33199749 阅读：11 留言：0更新日期：2022-04-24 00:34

本发明专利技术公开了一种提升Flink实时计算框架数据处理效率的方法，包括以下步骤：S1.检测Kafka分区个数是否大于flink申请task实例个数；S2.Flink task任务再均衡优化；通过Flink任务再均衡方法，可以显著提高实时计算的吞吐量并降低端到端的处理时延，避免flink在数据处理阶段存在较多的cpu浪费；以下将对每个步骤的实现过程做详细说明。本发明专利技术解决了现有Flink Streaming实时计算框架中在处理数据过程中遇到的部分task实例空闲，造成CPU资源浪费的问题；通过检测Kafka分区个数是否大于flink申请task实例个数，并对出现task实例空闲的情况进行任务再均衡优化，显著提高了资源利用率，进而增加了系统处理吞吐量、降低处理时延。时延。时延。

全部详细技术资料下载

【技术实现步骤摘要】
一种提升Flink实时计算框架数据处理效率的方法

[0001]本专利技术涉及大数据实时计算处理领域，特别涉及一种提升Flink实时计算框架数据处理效率的方法。

技术介绍

[0002]Flink是业界具有低处理时延、高吞吐量、精确一次性语义的分布式实时计算框架，可以处理多种数据源中的数据，目前最常用的数据源是Kafka消息中间件；
[0003]根据kafka数据源分区数量及flinksourcetask数量，其处理模型分别如下：
[0004](a)kafkapartitions＝＝flinkparallelism，一个flinktask实例读取一个kafka分区数据，如图3所示；
[0005](b)kafkapartitions<flinkparallelism，一个flinktask实例读取一个kafka分区数据，多余的flinktask4实例将处于空闲，如图4所示；
[0006](c)kafkapartitions>flinkparallelism，部分flinktask实例将处理多个kafka区数据，如图5所示；对于场景b，Flink读取数据时task4实例处于空闲状态导致该部分资源未能充分利用。而在实际的业务处理中，为了达到更高的处理吞吐量及低时延，一般会分配较多的物理资源，这也造成了flink在数据源读取阶段存在较多的cpu浪费。

技术实现思路

[0007]本专利技术要解决的技术问题是克服现有技术的缺陷，提供一种提升Flink实时计算...

【技术保护点】

【技术特征摘要】
1.一种提升Flink实时计算框架数据处理效率的方法，其特征在于，包括以下步骤：S1.检测Kafka分区个数是否大于flink申请task实例个数；S2.Flink task任务再均衡优化；通过Flink任务再均衡方法，可以显著提高实时计算的吞吐量并降低端到端的处理时延，避免flink在数据处理阶段存在较多的cpu浪费；以下将对每个步骤的实现过程做详细说明：(1)Flink JobManager获取待读取Kafka分区信息及Flink任务并行度；(2)若ka...

【专利技术属性】
技术研发人员：张璐波，王全福，谢巍盛，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人