基于FlinkSQL与Kudu构建实时数仓的方法、设备及介质技术

技术编号：41396113 阅读：19 留言：0更新日期：2024-05-20 19:19

本发明专利技术的一种基于FlinkSQL与Kudu构建实时数仓的方法、设备及介质，包括将关系型数据库和日志实时数据采集，基于FlinkSql CDC获取数据库日志文件，将日志解析为Json格式报文，同步Json数据到消息队列；设备数据、日志数据直接写入消息队列对应topic；同时将数据回写到ODS层的消息队列；通过FlinkSql实时读取ODS层数据，并进行实时清洗、加工，结果写入到DWR层消息队列中；通过FlinkSql实时读取DWR层消息队列数据，并汇总计算成指标数据，结果写入到DWS层kudu表中；将存储得数据支撑业务分析和实时报表应用系统。本发明专利技术基于FlinkSql技术提供采集不同形式的实时数据，建设实时数据仓库，保证了数据的完整性、一致性，提高了应用支持效率，降低了时间成本、运维成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理技术，具体涉及一种基于flinksql与kudu构建实时数仓的方法、设备及存储介质。

技术介绍

1、随着大数据时代的到来，大多数企业面临数据源多、结构复杂的问题，为了更好的管理数据和赋能价值，数据仓库的建设成为了企业的基础服务。但现有的数据仓库存在一下问题：(1)离线数据实时性低，延迟性高，逐渐不能满足业务需求；(2)实时数据处理造成资源成本高、运维难度大，数据不一致；(3)使用spark streaming技术又不能实时计算指标和构建数仓体系；(4)sparkstreaming、storm等实时计算框架需要进行代码开发实现实时计算任务，对开发人员的技术要求很高，对业务的数据需求响应较慢；(5)storm基于流式数据的实时计算，侧重于低延迟的流处理，sparkstreaming基于dstream(discretizedstream，持续性数据流的抽象)的微批处理数据的实时计算，侧重于更好的容错性，无法同时实现低延迟和高容错。

技术实现思路

1、本专利技术提出的一种基于flinksql与本文档来自技高网...

【技术保护点】

1.一种基于FlinkSQL与Kudu构建实时数仓的方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的基于FlinkSQL与Kudu构建实时数仓的方法，其特征在于：所述步骤S1具体包括，

3.根据权利要求1所述的基于FlinkSQL与Kudu构建实时数仓的方法，其特征在于：所述步骤S2具体包括，针对ODS层Kafka流式数据,创建ODS层Kafka Producer生产者实例，基于KafkaConsumer创建Flink数据源即DataStream，并基于FlinkSQL进行数据转换和处理，通过调用addSink方法将处理后的流数据传递到ODS层Kafka...

【技术特征摘要】

1.一种基于flinksql与kudu构建实时数仓的方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的基于flinksql与kudu构建实时数仓的方法，其特征在于：所述步骤s1具体包括，

3.根据权利要求1所述的基于flinksql与kudu构建实时数仓的方法，其特征在于：所述步骤s2具体包括，针对ods层kafka流式数据,创建ods层kafka producer生产者实例，基于kafkaconsumer创建flink数据源即datastream，并基于flinksql进行数据转换和处理，通过调用addsink方法将处理后的流数据传递到ods层kafka producer。

4.根据权利要求1所述的基于flinksql与kudu构建实时数仓的方法，其特征在于：

5.根据权利要求1所述的基于flinksql与kudu构建实时数仓...

【专利技术属性】
技术研发人员：雷佳佳，赵文政，刘林平，
申请(专利权)人：合肥喆塔科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人