一种实时数据处理方法、设备、系统及介质技术方案

技术编号:36374101 阅读:16 留言:0更新日期:2023-01-18 09:33
本发明专利技术公开了一种实时数据处理方法、设备、系统及介质,包括以下步骤:采用写入型连接器将数据接入到KafkaConnect中;KafkaConnect将所述数据转换成统一数据类型的消息结构,生成第一数据,将所述第一数据写入到分布式消息中间件Kafka中;开启至少一个任务对Kafka中的第一数据进行处理,并将至少一个任务中的每个任务的输出数据转换成统一数据类型的消息结构,生成第二数据,将所述第二数据写入到Kafka中;采用写出型连接器将所述第二数据写入到目标库中。其通过任务线程对数据进行处理,产生高实时性的数据结果,且直接将计算处理后的有效数据存储至目标库中,跳过ODS层不再直接存放无效数据。放无效数据。放无效数据。

【技术实现步骤摘要】
一种实时数据处理方法、设备、系统及介质


[0001]本专利技术属于数据处理
,具体地涉及一种实时数据处理方法、设备、系统及介质。

技术介绍

[0002]信息互联网的发展使人类进入了一个崭新的大数据时代,改变着影响时代发展的进程。大数据经历了技术驱动和数据驱动业务转型阶段,当前“新基建”成为业界关注的热点,5G、大数据中心、人工智能、工业互联网等新型基础设施建设正在加速推进,数据中台作为新基建不可或缺的一部分。数据融合是数据中台的基础,作用是完成各个业务数据抽取、清洗、转换到数据仓库中,待各种数据任务处理,给出最终有用结果。
[0003]现有技术中,常见的是单纯的数据仓库技术(Extract

Transform

Load,ETL),仅实现数据迁移的功能,在数据中台方案中,先使用ETL工具抽取数据从业务库到数据仓库ODS层,数据仓库一般分为数据操作层ODS、公共的信息层DIM、数据明细层DWD、数据汇总层DWS层,再根据业务上的定义配置各种数据同步规则任务让数据在各个层之间流转,最后由Spark, Flink等计算框架完成数据计算产生有价值的结果。
[0004]其中ETL工具部分,多是通过侵入式指定自增字段依赖SQL的条件调度型定时触发查询实现增量数据同步,仅能做轻量的数据处理转换。
[0005]采用现有技术,其存在以下缺陷:
[0006]滞后性:在数据信息高速产生的时代,众多业务对数据处理结果的实时性要求越来越苛刻,普通ETL工具是伪实时的,不能及时感知新产生的数据,将数据抽取到数据仓库再使用传统的离线计算方式MapReduce,此种方式产生的数据报表的滞后相当严重。
[0007]浪费数据存储空间:普通的ETL工具对数据处理能力相当弱,设计上只能第一步将数据抽取到ODS层,由后续服务器任务依次处理数据,达到最后可用程度。ODS中存在大量没有意义的废弃数据。要产生能够直接参与计算的规整合法数据需要多个数据处理调度任务,反复清洗合并数据,浪费空间和时间。

技术实现思路

[0008]为了解决现有数据处理滞后、数据存储空间浪费的现象,本专利技术提供一种实时数据处理方法、设备、系统及介质,其通过任务线程对数据进行处理,产生高实时性的数据结果,且直接将计算处理后的有效数据存储至目标库中,跳过ODS层不再直接存放无效数据。
[0009]本专利技术通过以下技术方案实现:
[0010]本专利技术第一方面提供一种实时数据处理方法,包括以下步骤:
[0011]采用写入型连接器将数据接入到KafkaConnect中;
[0012]KafkaConnect将所述数据转换成统一数据类型的消息结构,生成第一数据,将所述第一数据写入到分布式消息中间件Kafka中;
[0013]开启至少一个任务对Kafka中的第一数据进行处理,并将至少一个任务中的每个
任务的输出数据转换成统一数据类型的消息结构,生成第二数据,将所述第二数据写入到Kafka中;
[0014]采用写出型连接器将所述第二数据写入到目标库中。
[0015]在一种可能的设计中,所述写入型连接器为基于KafkaConnect的CDC连接器。
[0016]现有采用ETL工具进行数据处理会影响被抽取数据库性能。普通ETL工具对流式增量数据处理非常不友好,需要侵入式配置指定增量字段,依赖SQL的条件查询,根据设置的周期频率调用,数据量大时会严重影响业务库性能。本方案使用数据库CDC机制,数据库主从备份机制,从数据库产生的日志上抽取数据,不会占用影响数据库性能。直接接入各种数据来源例如消息中间等,业务上还未落库的数据直接参与计算,跳过从业务库抽取数据。
[0017]本专利技术第二方面提供一种实时数据处理设备,包括数据抽取单元、数据处理单元和数据写出单元,
[0018]所述数据抽取单元用于采用写入型连接器将数据源的数据接入到KafkaConnect中, KafkaConnect将所述数据转换成统一数据类型的消息结构,生成第一数据,将所述第一数据写入到分布式消息中间件Kafka中;
[0019]所述数据处理单元用于开启至少一个任务对Kafka中的第一数据进行处理,并将至少一个任务中每个任务的输出数据转换成统一数据类型的消息结构,生成第二数据,将所述第二数据写入到Kafka中;
[0020]所述数据写出单元用于采用写出型连接器将所述第二数据写入到目标库中。
[0021]本专利技术第三方面提供一种实时数据处理系统,包括数据源和第二方面中所述的实时数据处理设备,所述数据源与所述实时数据处理设备的所述数据抽取单元信号连接。
[0022]在一种可能的设计中,所述数据源为数据库或者具有数据输出的中间件。
[0023]本专利技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行第一方面及其任一种可能中所述的一种实时数据处理方法。
[0024]本专利技术与现有技术相比,至少具有以下优点和有益效果:
[0025]1、本专利技术将抽取的数据流直接接入流式计算服务中,让数据直接进行计算,根据工作流任务内容配置,将处理后的计算结果或清理后的数据直接输出,数据实时参与复杂的计算得出低延迟结果。
[0026]2、本专利技术配合实时数据处理工作流,将数据进行复杂的工作流任务处理,直接生成高度符合标准有用的数据,直接到达数据仓库目标层,跳过ODS层不再直接存放无效数据。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1是本专利技术实时数据处理设备的原理框图。
具体实施方式
[0029]下面结合附图及具体实施例来对本专利技术作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本专利技术,但并不构成对本专利技术的限定。本文公开的特定结构和功能细节仅用于描述本专利技术的示例实施例。然而,可用很多备选的形式来体现本专利技术,并且不应当理解为本专利技术限制在本文阐述的实施例中。
[0030]应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
[0031]应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而, 本领域普通技术人员应当理解可以在没有这些特定细节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时数据处理方法,其特征在于,包括以下步骤:采用写入型连接器将数据源的数据接入到KafkaConnect中;KafkaConnect将所述数据转换成统一数据类型的消息结构,生成第一数据,将所述第一数据写入到分布式消息中间件Kafka中;开启至少一个任务对Kafka中的第一数据进行处理,并将至少一个任务中每个任务的输出数据转换成统一数据类型的消息结构,生成第二数据,将所述第二数据写入到Kafka中;采用写出型连接器将所述第二数据写入到目标库中。2.根据权利要求1所述的一种实时数据处理方法,其特征在于,所述写入型连接器为基于KafkaConnect的CDC连接器。3.一种实时数据处理设备,其特征在于,包括数据抽取单元、数据处理单元和数据写出单元,所述数据抽取单元用于采用写入型连接器将数据源的数据接入到KafkaConnect中,KafkaConnect将所述数据转换成统一数据类型的消息结构,生成第一数据,将所述第一数据写入到分布式消息中间件K...

【专利技术属性】
技术研发人员:赵凌园刘明熙杨振宇陆汪易松
申请(专利权)人:眉山环天智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1