一种实时数据处理方法、设备、系统及介质技术方案

技术编号：36374101 阅读：16 留言：0更新日期：2023-01-18 09:33

本发明专利技术公开了一种实时数据处理方法、设备、系统及介质，包括以下步骤：采用写入型连接器将数据接入到KafkaConnect中；KafkaConnect将所述数据转换成统一数据类型的消息结构，生成第一数据，将所述第一数据写入到分布式消息中间件Kafka中；开启至少一个任务对Kafka中的第一数据进行处理，并将至少一个任务中的每个任务的输出数据转换成统一数据类型的消息结构，生成第二数据，将所述第二数据写入到Kafka中；采用写出型连接器将所述第二数据写入到目标库中。其通过任务线程对数据进行处理，产生高实时性的数据结果，且直接将计算处理后的有效数据存储至目标库中，跳过ODS层不再直接存放无效数据。放无效数据。放无效数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种实时数据处理方法、设备、系统及介质

[0001]本专利技术属于数据处理
，具体地涉及一种实时数据处理方法、设备、系统及介质。

技术介绍

[0002]信息互联网的发展使人类进入了一个崭新的大数据时代，改变着影响时代发展的进程。大数据经历了技术驱动和数据驱动业务转型阶段，当前“新基建”成为业界关注的热点，5G、大数据中心、人工智能、工业互联网等新型基础设施建设正在加速推进，数据中台作为新基建不可或缺的一部分。数据融合是数据中台的基础，作用是完成各个业务数据抽取、清洗、转换到数据仓库中，待各种数据任务处理，给出最终有用结果。
[0003]现有技术中，常见的是单纯的数据仓库技术(Extract
‑
Transform
‑
Load,ETL)，仅实现数据迁移的功能，在数据中台方案中，先使用ETL工具抽取数据从业务库到数据仓库ODS层，数据仓库一般分为数据操作层ODS、公共的信息层DIM、数据明细层DWD、数据汇总层DWS层，再根据业务上的定义配置各种数据同步规则任务让数据在各个层之间流转，最后由Spark， Flink等计算框架完成数据计算产生有价值的结果。
[0004]其中ETL工具部分，多是通过侵入式指定自增字段依赖SQL的条件调度型定时触发查询实现增量数据同步，仅能做轻量的数据处理转换。
[0005]采用现有技术，其存在以下缺陷：
[0006]滞后性：在数据信息高速产生的时代，众多业务对数据处理结果的实时性要求越来越苛刻，普通ETL工具是伪实时的，...

【技术保护点】

【技术特征摘要】
1.一种实时数据处理方法，其特征在于，包括以下步骤：采用写入型连接器将数据源的数据接入到KafkaConnect中；KafkaConnect将所述数据转换成统一数据类型的消息结构，生成第一数据，将所述第一数据写入到分布式消息中间件Kafka中；开启至少一个任务对Kafka中的第一数据进行处理，并将至少一个任务中每个任务的输出数据转换成统一数据类型的消息结构，生成第二数据，将所述第二数据写入到Kafka中；采用写出型连接器将所述第二数据写入到目标库中。2.根据权利要求1所述的一种实时数据处理方法，其特征在于，所述写入型连接器为基于KafkaConnect的CDC连接器。3.一种实时数据处理设备，其特征在于，包括数据抽取单元、数据处理单元和数据写出单元，所述数据抽取单元用于采用写入型连接器将数据源的数据接入到KafkaConnect中，KafkaConnect将所述数据转换成统一数据类型的消息结构，生成第一数据，将所述第一数据写入到分布式消息中间件K...

【专利技术属性】
技术研发人员：赵凌园，刘明熙，杨振宇，陆汪，易松，
申请(专利权)人：眉山环天智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人