基于Flink实现的端到端一致性数据实时处理方法及介质技术

技术编号：36603072 阅读：35 留言：0更新日期：2023-02-04 18:20

本发明专利技术涉及一种基于Flink实现的端到端一致性数据实时处理方法及介质，所述方法应用于Flink流式数据处理运行环境，包括以下步骤：1)获取topic，所述topic包括schema topic和data topic，将每一topic转换为一条数据流，所述数据流包括schema stream和data stream；2)对每一所述数据流进行数据预处理；3)对所述schema stream按设定键进行分流，将切分出的数据与该设定键对应的data stream融合，形成重新融合后的多条数据流；4)基于Watermark和窗口技术对接收的数据流进行排序及相应业务处理；5)采用两阶段提交方式将处理后数据插入到目标端。与现有技术相比，本发明专利技术具有保证端到端始终一致、解决乱序问题避免了容错恢复时导致目标端出现的幂等性问题等优点。出现的幂等性问题等优点。出现的幂等性问题等优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于Flink实现的端到端一致性数据实时处理方法及介质

[0001]本专利技术涉及一种端到端一致性数据处理方法，尤其是涉及一种基于Flink实现的端到端一致性数据实时处理方法及介质。

技术介绍

[0002]在数据实时处理相关业务系统中为了水平扩展，达到提高并发的目的，一般通过直接利用其底层组件的(或者间接实现)分布式特性实现。而在分布式系统中，通常由于各底层组件对于分布式的特性及性能表现不同，会产生数据不一致的情况。在本数据实时处理方案中，以技术选型为Debezium、Kafka、Flink组件分别提供采集、传输、处理功能为例，为保证业务的正常运行，必须提供任务级端到端的一致性方案。
[0003]端到端一致性是指在涉及CDC(变化数据捕捉)，如数据库实时同步、构建数据仓库、数据湖、实时分析、数据大屏等相关场景中，源端数据库经过过滤、清洗、脱敏、加密、转换等处理后，写入到目标端数据库时保证不会出现数据的丢失、重复、乱序等情况。当源端数据发生更改时，保证目标端及时、正确、持久的写入更改数据。端到端一致性包括两部分：严格的顺序保证、一致性语义exactly once(当流处理应用程序发生故障恢复时，同步到目标端的数据没有丢失或冗余重复)的保证。
[0004]现有技术处理端到端一致性上还存在无法全面考虑各环节关系、一致性处理可靠性不高的不足。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种保证端到端始终一致的基于Flink实现的端到端一致性数据实时处理方...

【技术保护点】

【技术特征摘要】
1.一种基于Flink实现的端到端一致性数据实时处理方法，其特征在于，该方法应用于Flink流式数据处理运行环境，包括以下步骤：1)获取topic，所述topic包括schema topic和data topic，将每一topic转换为一条数据流，所述数据流包括schema stream和data stream；2)对每一所述数据流进行数据预处理；3)对所述schema stream按设定键进行分流，将切分出的数据与该设定键对应的data stream融合，形成重新融合后的多条数据流；4)基于Watermark和窗口技术对接收的数据流进行排序及相应业务处理；5)采用两阶段提交方式将处理后数据插入到目标端。2.根据权利要求1所述的基于Flink实现的端到端一致性数据实时处理方法，其特征在于，所述schema topic包含所有库和表的数据定义语句。3.根据权利要求1所述的基于Flink实现的端到端一致性数据实时处理方法，其特征在于，每张表对应一个所述data topic，该data topic包含关于该表的数据操纵语句。4.根据权利要求1所述的基于Flink实现的端到端一致性数据实时处理方法，其特征在于，所述数据预处理包括将json转为pojo以及空数据过滤。5.根据权利要求1所述的基于Flink实现的端到端一致性数据实时处理方法，其特征在于，所述设定键为库名与表名的结合。6.根据权利要求1所述的基于Flink实现的端到端一致性数据实时处理方法，其特征在于，所述...

【专利技术属性】
技术研发人员：董海峰，
申请(专利权)人：上海爱数信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人