一种用于Apache Kafka的消费信息流处理方法及系统技术方案

技术编号：23764406 阅读：29 留言：0更新日期：2020-04-11 19:04

本发明专利技术公开了一种用于Apache Kafka的消费信息流处理方法及系统，方法包括：计算拉取数据的处理时间，判断处理时间是否大于拉取超时时间，若是，则：拉取新的数据进行处理；若否，则：计算拉取数据线程暂停时间，在暂停时间内暂停拉取数据。本发明专利技术能够最大限度的利用Java线程池，提高程序运行效率，减少触发Apache Kafka选举机制的次数，进而提升信息系统的吞吐量。

A processing method and system of consumption information flow for Apache Kafka

全部详细技术资料下载

【技术实现步骤摘要】
一种用于ApacheKafka的消费信息流处理方法及系统
本专利技术涉及信息处理
，尤其涉及一种用于ApacheKafka的消费信息流处理方法及系统。
技术介绍
ApacheKafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写；是一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据。目前，ApacheKafka这种高吞吐量的分布式发布订阅消息系统在银行系统得到广泛应用。如图1所示，在应用场景中，需要采集的数据包括ATM、叫号机、网点WIFI等渠道的交易信息及用户行为信息，种类繁多，划分为多个Topic(每条发布到Kafka集群的消息队列都有一个类别，这个类别被称为Topic)；交易量大，仅ATM日均采集交易量1500万笔，吞吐量要求比较高；针对同一个Topic中的每个消息可能需要复杂的处理逻辑。作为一个消息系统，ApacheKafka基本结构中有产生消息的组件(消息生产者)，以及消费消息的组件(消费者)。生产者负责生产消息，将消息写入ApacheKafka集群；消费者从ApacheKafka集群中拉取消息。这里，将多个渠道采集的数据包括ATM、超柜、叫号机等报文消息写入ApacheKafka集群，将对消息的处理单元作为消费者。消费者消费消息队列中的消息时，存在两种配置方式。其一，拉取固定大小的消息；其二，拉取固定个数的消息。在应用场景中，各个渠道的报文长度是不固定的，第一种方式存在拉取过程中，消息被截断、不完整的问题。所以这种应用场...

【技术保护点】
1.一种用于Apache Kafka的消费信息流处理方法，其特征在于，包括：/n计算拉取数据的处理时间；/n判断所述处理时间是否大于拉取超时时间，若是，则：拉取新的数据进行处理；若否，则：/n计算拉取数据线程暂停时间；/n在所述暂停时间内暂停拉取数据。/n

【技术特征摘要】
1.一种用于ApacheKafka的消费信息流处理方法，其特征在于，包括：
计算拉取数据的处理时间；
判断所述处理时间是否大于拉取超时时间，若是，则：拉取新的数据进行处理；若否，则：
计算拉取数据线程暂停时间；
在所述暂停时间内暂停拉取数据。

2.根据权利要求1所述的方法，其特征在于，所述计算拉取数据的处理时间包括：
获取处理数据线程开始时间；
获取处理数据线程完成时间；
基于所述处理数据线程完成时间和所述处理数据线程开始时间的差值得到所述拉取数据的处理时间。

3.根据权利要求2所述的方法，其特征在于，所述计算拉取数据线程暂停时间，包括：
基于公式确定拉取数据线程暂停时间，其中，downbound为暂停的最短时间，upbound为暂停的最长时间，right为暂停时间的权值调整系数，所述其中，threadActiveNumber为应用程序线程池中已使用的线程个数，threadTotalNumber为应用程序线程池中线程总个数。

4.根据权利要求3所述的方法，其特征在于，所述暂停的最长时间upbound的取值与拉取超时时间pollTimeOut有关，关系为min(pollTimeOut,upbound)。

5.根据权利要求4所述的方法，其特征在于，所述暂停的最短时间downbound和暂停时间的权值调整系数right为测试经验值。

6.一种用于ApacheKafka的消费信息流处理系统，其特征在于，包括：
第一计算...

【专利技术属性】
技术研发人员：赵晓，王瑞聪，申文龙，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人