互联网金融消费信贷批量业务分布式流计算处理引擎制造技术

技术编号:27773654 阅读:28 留言:0更新日期:2021-03-23 13:01
本发明专利技术涉及流计算处理领域,公开了互联网金融消费信贷批量业务分布式流计算处理引擎,包括以下步骤,步骤S1001:从源数据库中读取数据,通过kafka producer把源数据流发送到kafka topic partition上;步骤S1002:读取Kafka中的源数据消息,为kafka的topic中每一个partition创建一个reader作为consumer;步骤S1003:reader通过流运算把来自于同一个topic的消息汇集起来上,再通过HTTP Connector转发到GP的各个Segment上;步骤S1004:通过调度器Dispatcher来调度、加载、启动使用流数据处理模式和流运算的GP‑SQL for Java,实现流数据处理的JOB来完成具体的业务功能;步骤S1005:把处理完成的结果数据写入到结果数据库中。本发明专利技术通过分布式并行技术来提高批量处理效率,缩短处理时间,把Kafka高速的流传输能力和Greenplum强大的流运算执行能力联合起来。

【技术实现步骤摘要】
互联网金融消费信贷批量业务分布式流计算处理引擎
本专利技术涉及流计算处理领域,具体是指互联网金融消费信贷批量业务分布式流计算处理引擎。
技术介绍
互联网消费金融从本质上讲其实就是网络贷款,是指具有相关资质的互联网金融企业在大数据征信的基础上,通过互联网向消费者提供某个具体消费产品(房产或汽车除外)或服务贷款的金融运作模式。用户只要登陆相关网站,然后进行申请就可享受互联网消费金融所带来的便捷性。当前互联网金融消费信贷批量是使用单机单进程模式,随着数据量不断增加,单机批量系统的压力很大,批量处理时间越来越长,已经影响了正常的交易和下游系统的数据处理。因此我们迫切需要一种能够提高批量处理效率,缩短处理时间的互联网金融消费信贷批量业务分布式流计算处理引擎。
技术实现思路
基于以上问题,本专利技术提供了互联网金融消费信贷批量业务分布式流计算处理引擎。本专利技术通过分布式并行技术来提高批量处理效率,缩短处理时间,把Kafka高速的流传输能力和Greenplum强大的流运算执行能力联合起来,形成一个分布式流计算处理引擎,大大降低了数据处理的延时。为解决以上技术问题,本专利技术采用的技术方案如下:互联网金融消费信贷批量业务分布式流计算处理引擎,包括以下步骤,步骤S1001:从源数据库中读取数据,通过kafkaproducer把源数据流发送到kafkatopicpartition上;步骤S1002:读取Kafka中的源数据消息,为kafka的topic中每一个partition创建一个reader作为consumer;步骤S1003:reader通过流运算把来自于同一个topic的消息汇集起来上,再通过HTTPConnector转发到GP的各个Segment上;步骤S1004:通过调度器Dispatcher来调度、加载、启动使用流数据处理模式和流运算的GP-SQLforJava实现流数据处理的JOB来完成具体的业务功能;步骤S1005:把处理完成的结果数据写入到结果数据库中。作为优选的,在步骤S1002中,Reader是流计算处理引擎的kafkaconsumer,负责读取Kafka中的源数据流,同时对数据流进行前置变换和处理,然后再通过Connector发送数据到GP的segment上。作为优选的,Connector基于HTTP协议,负责kafka、GP连接功能,以及数据收发功能。作为优选的,Dispatcher是调度组件,负责调度、加载、启动与GPSegment关联的用GP-SQLforJAVA实现的JOB。作为优选的,数据流在JOB处理前还需进行PreHandler操作,从而得到JOB处理需要的数据格式。作为优选的,数据流在JOB处理后还需进行PostHandler操作,使其满足保存到mysql数据库需要的格式,实现把处理完成的结果数据写入到结果数据库中。本专利技术的有益效果:(1)本专利技术使用Kafka流数据平台,具备高速数据流传输能力。(2)本专利技术使用Greenplum,具备强大的流运算执行能力。(3)本专利技术支持完整的流计算处理模式,支持事件时间和处理时间,支持固定窗口及滑动窗口,可以通过时间窗口模拟会话窗口,并可以在这些窗口上执行各种Greenplum强大的数据处理功能。(4)本专利技术充分利用Kafka、Greenplum的分布式并行技术,极大的提高了批量处理效率,大大缩短处理时间。(5)本专利技术还支持处理节点的横向扩展,大大提高了系统的扩展性、伸缩性、容错性。附图说明参考以下详细描述可以获得对本专利技术的特征和优点的更好理解,其中阐述了利用了本专利技术的原理的说明性实施例以及附图,其中:图1是根据本说明书一些实施例所示的框架示意图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。参见图1,互联网金融消费信贷批量业务分布式流计算处理引擎,包括以下步骤,步骤S1001:从源数据库中读取数据,通过kafkaproducer把源数据流发送到kafkatopicpartition上;步骤S1002:读取Kafka中的源数据消息,为kafka的topic中每一个partition创建一个reader作为consumer;步骤S1003:reader通过流运算把来自于同一个topic的消息汇集起来上,再通过HTTPConnector转发到GP的各个Segment上;步骤S1004:通过调度器Dispatcher来调度、加载、启动使用流数据处理模式和流运算的GP-SQLforJava实现流数据处理的JOB来完成具体的业务功能;步骤S1005:把处理完成的结果数据写入到结果数据库中。为了便于实施例理解,我们做出如下说明。1、Greenplum:Greenplum是基于Postgres的MPP版本构建的功能丰富,性能优越的开源数据处理平台,数据可分布在不同的节点上进行高速并行处理,在本申请文件中也简称GP。Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。Greenplummaster是Greenplum数据库系统的入口,接受客户端连接及提交的SQL语句,将工作负载分发给其它数据库实例(segment实例),由它们存储和处理数据。Greenpluminterconnect负责不同PostgreSQL实例之间的通信。Greenplumsegment是独立的PostgreSQL数据库,每个segment存储一部分数据。大部分查询处理都由segment完成。Master节点不存放任何用户数据,只是对客户端进行访问控制和存储表分布逻辑的元数据,Segment节点负责数据的存储,可以对分布键进行优化以充分利用Segment节点的io性能来扩展整集群的io性能存储方式可以根据数据热度或者访问模式的不同而使用不同的存储方式。一张表的不同数据可以使用不同的物理存储方式:行存储、列存储、外部表。Greenplum架构大致有以下几个特点:1.1大规模数据存储(1)Greenplum数据库通过将数据分布到多个节点上来实现规模数据的存储。(2)Greenplum采用分而治之的办法,将数据规律的分布到节点上,充分利用Segment主机的IO能力,以此让系统达到最大的IO能力。(3)在Greenplum中每个表都是分布在所有节点上的。Master节点首先通过对表的某个或多个列进行hash运算,然后根据hash结果将表的数据分布到Segment节点中。整个过程中Master节点不存放任何用户数据,只是对客户端进行访问控本文档来自技高网...

【技术保护点】
1.互联网金融消费信贷批量业务分布式流计算处理引擎,其特征在于,包括以下步骤,/n步骤S1001:从源数据库中读取数据,通过kafka producer把源数据流发送到kafkatopic partition上;/n步骤S1002:读取Kafka中的源数据消息,为kafka的topic中每一个partition创建一个reader作为consumer;/n步骤S1003:reader通过流运算把来自于同一个topic的消息汇集起来上,再通过HTTPConnector转发到GP的各个Segment上;/n步骤S1004:通过调度器Dispatcher来调度、加载、启动使用流数据处理模式和流运算的GP-SQL for Java实现流数据处理的JOB来完成具体的业务功能;/n步骤S1005:把处理完成的结果数据写入到结果数据库中。/n

【技术特征摘要】
1.互联网金融消费信贷批量业务分布式流计算处理引擎,其特征在于,包括以下步骤,
步骤S1001:从源数据库中读取数据,通过kafkaproducer把源数据流发送到kafkatopicpartition上;
步骤S1002:读取Kafka中的源数据消息,为kafka的topic中每一个partition创建一个reader作为consumer;
步骤S1003:reader通过流运算把来自于同一个topic的消息汇集起来上,再通过HTTPConnector转发到GP的各个Segment上;
步骤S1004:通过调度器Dispatcher来调度、加载、启动使用流数据处理模式和流运算的GP-SQLforJava实现流数据处理的JOB来完成具体的业务功能;
步骤S1005:把处理完成的结果数据写入到结果数据库中。


2.根据权利要求1所述的互联网金融消费信贷批量业务分布式流计算处理引擎,其特征在于,在步骤S1002中,Reader是流计算处理引擎的kafkaconsumer,负责读取Kafka中的源数据流...

【专利技术属性】
技术研发人员:冯宇罗喜川
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1