基于FlinkSQL与Kudu构建实时数仓的方法、设备及介质技术

技术编号:41396113 阅读:19 留言:0更新日期:2024-05-20 19:19
本发明专利技术的一种基于FlinkSQL与Kudu构建实时数仓的方法、设备及介质,包括将关系型数据库和日志实时数据采集,基于FlinkSql CDC获取数据库日志文件,将日志解析为Json格式报文,同步Json数据到消息队列;设备数据、日志数据直接写入消息队列对应topic;同时将数据回写到ODS层的消息队列;通过FlinkSql实时读取ODS层数据,并进行实时清洗、加工,结果写入到DWR层消息队列中;通过FlinkSql实时读取DWR层消息队列数据,并汇总计算成指标数据,结果写入到DWS层kudu表中;将存储得数据支撑业务分析和实时报表应用系统。本发明专利技术基于FlinkSql技术提供采集不同形式的实时数据,建设实时数据仓库,保证了数据的完整性、一致性,提高了应用支持效率,降低了时间成本、运维成本。

【技术实现步骤摘要】

本专利技术涉及大数据处理技术,具体涉及一种基于flinksql与kudu构建实时数仓的方法、设备及存储介质。


技术介绍

1、随着大数据时代的到来,大多数企业面临数据源多、结构复杂的问题,为了更好的管理数据和赋能价值,数据仓库的建设成为了企业的基础服务。但现有的数据仓库存在一下问题:(1)离线数据实时性低,延迟性高,逐渐不能满足业务需求;(2)实时数据处理造成资源成本高、运维难度大,数据不一致;(3)使用spark streaming技术又不能实时计算指标和构建数仓体系;(4)sparkstreaming、storm等实时计算框架需要进行代码开发实现实时计算任务,对开发人员的技术要求很高,对业务的数据需求响应较慢;(5)storm基于流式数据的实时计算,侧重于低延迟的流处理,sparkstreaming基于dstream(discretizedstream,持续性数据流的抽象)的微批处理数据的实时计算,侧重于更好的容错性,无法同时实现低延迟和高容错。


技术实现思路

1、本专利技术提出的一种基于flinksql与本文档来自技高网...

【技术保护点】

1.一种基于FlinkSQL与Kudu构建实时数仓的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的基于FlinkSQL与Kudu构建实时数仓的方法,其特征在于:所述步骤S1具体包括,

3.根据权利要求1所述的基于FlinkSQL与Kudu构建实时数仓的方法,其特征在于:所述步骤S2具体包括,针对ODS层Kafka流式数据,创建ODS层Kafka Producer生产者实例,基于KafkaConsumer创建Flink数据源即DataStream,并基于FlinkSQL进行数据转换和处理,通过调用addSink方法将处理后的流数据传递到ODS层Kafka...

【技术特征摘要】

1.一种基于flinksql与kudu构建实时数仓的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的基于flinksql与kudu构建实时数仓的方法,其特征在于:所述步骤s1具体包括,

3.根据权利要求1所述的基于flinksql与kudu构建实时数仓的方法,其特征在于:所述步骤s2具体包括,针对ods层kafka流式数据,创建ods层kafka producer生产者实例,基于kafkaconsumer创建flink数据源即datastream,并基于flinksql进行数据转换和处理,通过调用addsink方法将处理后的流数据传递到ods层kafka producer。

4.根据权利要求1所述的基于flinksql与kudu构建实时数仓的方法,其特征在于:

5.根据权利要求1所述的基于flinksql与kudu构建实时数仓...

【专利技术属性】
技术研发人员:雷佳佳赵文政刘林平
申请(专利权)人:合肥喆塔科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1