一种基于流批一体化的数据湖服务平台构建方法技术

技术编号:39656750 阅读:14 留言:0更新日期:2023-12-09 11:25
本发明专利技术提出了一种基于流批一体化的数据湖服务平台构建方法,包括:采用

【技术实现步骤摘要】
一种基于流批一体化的数据湖服务平台构建方法


[0001]本专利技术涉及计算机软件
,特别涉及一种基于流批一体化的数据湖服务平台构建方法


技术介绍

[0002]大数据架构方案涉及流数据

批数据

湖数据等,来满足不同类型数据的处理需求,具体来说:
[0003]流数据一般指实时产生的数据流,例如传感器数据

日志数据等

为了处理流数据,可以使用流数据处理引擎,如
Apache Kafka

Apache Flink


这些引擎可以实时处理数据流,并将数据流转换为适合存储的格式

[0004]批数据一般指离线处理的数据,例如从数据库中导出的数据

历史数据等

为了处理批数据,可以使用批处理引擎,如
Apache Hadoop

Apache Spark


这些引擎可以在集群中进行并行处理,并将处理结果存储到数据湖或数据仓库中

[0005]数据湖一般指一种存储结构,用于存储各种原始数据和处理数据,例如批数据和流数据

数据湖通常采用分布式存储系统,如
Hadoop HDFS

Amazon S3


为了对数据湖中的数据进行管理和查询,可以使用查询引擎,如
Apache Hive

Amazon Athena


[0006]传统的流处理和批处理分别采用两条链路,存在以下问题:
[0007](1)
对同一组数据处理存在数据重播的问题,数据重播会带来数据不一致,以及数据重算导致的数据口径不一致风险,业务指标在离线

实时任务产出容易不一致,导致数据质量低下

[0008](2)
流处理和批处理分两条链路处理也会造成数据链路的冗余,从而导致数据处理延迟

资源利用率低

开发运维成本高等问题

[0009](3)
流处理代码和批处理代码两套,无法复用

同一个处理逻辑流批采用两套代码,导致数据有效性和准确性都降低,数据质量低下


技术实现思路

[0010]本专利技术的目的旨在至少解决所述技术缺陷之一

[0011]为此,本专利技术的目的在于提出一种基于流批一体化的数据湖服务平台构建方法

[0012]为了实现上述目的,本专利技术的实施例提供一种基于流批一体化的数据湖服务平台构建方法,包括如下步骤:
[0013]步骤
S1
,对每个数据源和数据接入行为进行抽象,根据抽象后的数据源和数据接入行为,采用
Flink CDC
方式将数据源统一接入数据作业底层;构建数据湖服务平台和数据总线接入作业任务,所述数据总线接入作业任务实现对数据接入的开发作业进行统一管理,将数据源统一接入至数据湖中;
[0014]步骤
S2
,由数据湖服务平台对接入到所述数据湖中的数据进行分布式文件和元数据的统一存储,并对接入的数据采用统一的数据湖表格式,以进行离线数据和实时数据的
统一分层和统一存储;
[0015]步骤
S3
,所述数据湖服务平台采用
Flink
作为流批一体计算引擎,基于
Flink SQL GateWay
构建统一数据湖服务平台的网关,并统一采用
Flink SQL
作为流批数据处理的开发语言,实现对接入后的数据根据业务时效性进行流批处理
,
以构建基于流批一体的数据湖服务平台,所述基于流批一体的数据湖服务平台执行的
Flink
作业,在流和批两种执行模式之间自由进行切换并采用同一套代码;
[0016]步骤
S4
,作业监控中心采用被动推送来获取流处理及批处理的
metrics
数据,对
metrics
数据进行查询分析,当判断
metrics
数据的指标达到预设告警阈值时,发送告警通知给相关管理员,同时在作业监控展示工具中进行度量分析及仪表盘展示

[0017]进一步,在所述步骤
S1
中,
[0018]所述对每个数据源进行抽象,包括如下步骤:对所述数据源配置轻量级开发界面及目录树形式的管理界面,以通过所述管理界面对所述数据源进行开发和管理;
[0019]所述对数据接入行为进行抽象,包括如下步骤:对每个所述数据源均抽象出任务运行配置

数据写入策略

脏数据过滤策略和接入任务运行时间策略的数据接入行为

[0020]进一步,在所述步骤
S2
中,所述数据湖服务平台采用
HDFS
分布式文件系统对所述数据湖中的数据进行分布式文件存储

[0021]进一步,在所述步骤
S2
中,所述数据湖服务平台采用
Mysql
数据库作为底层存储,利用
Hive Metastore
工件管理
Flink On Iceberg
表格式中的元数据并提供服务;
[0022]对接入的数据采用
Iceberg
表格式统一数据湖表格式,在所述
Mysql
数据库的底层存储基础上,以
Iceberg
表格式定义数据和元数据的组织格式,以进行离线数据和实时数据的统一分层和统一存储

[0023]进一步,在所述步骤
S3
中,构建流批一体脚本开发控制台,利用所述流批一体脚本开发控制台所述数据湖服务平台进行流批一体开发脚本的配置,包括作业配置

执行配置

保存点配置和版本历史的配置

[0024]进一步,所述流批一体脚本开发控制台对所述数据湖服务平台进行作业配置,包括:对
FlinkSQL
的执行模式

集群选择

任务并行度

报警组进行可视化配置,同时对保存点路径及创建时间进行展示,以在流式作业运行中断后进行恢复

[0025]进一步,在所述步骤
S3
中,所述数据湖服务平台进行流批一体的用户自定义
UDF
函数管理

[0026]进一步,在所述步骤
S3
中,所述数据湖服务平台发布流批一体代码,支持将批处理及流处理作业发布运行,以对接入后的数据根据业务时效性进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于流批一体化的数据湖服务平台构建方法,其特征在于,包括如下步骤:步骤
S1
,对每个数据源和数据接入行为进行抽象,根据抽象后的数据源和数据接入行为,采用
Flink CDC
方式将数据源统一接入数据作业底层;构建数据湖服务平台和数据总线接入作业任务,所述数据总线接入作业任务实现对数据接入的开发作业进行统一管理,将数据源统一接入至数据湖中;步骤
S2
,由数据湖服务平台对接入到所述数据湖中的数据进行分布式文件和元数据的统一存储,并对接入的数据采用统一的数据湖表格式,以进行离线数据和实时数据的统一分层和统一存储;步骤
S3
,所述数据湖服务平台采用
Flink
作为流批一体计算引擎,基于
Flink SQL GateWay
构建统一数据湖服务平台的网关,并统一采用
Flink SQL
作为流批数据处理的开发语言,实现对接入后的数据根据业务时效性进行流批处理
,
以构建基于流批一体的数据湖服务平台,所述基于流批一体的数据湖服务平台执行的
Flink
作业,在流和批两种执行模式之间自由进行切换并采用同一套代码;步骤
S4
,作业监控中心采用被动推送来获取流处理及批处理的
metrics
数据,对
metrics
数据进行查询分析,当判断
metrics
数据的指标达到预设告警阈值时,发送告警通知给相关管理员,同时在作业监控展示工具中进行度量分析及仪表盘展示
。2.
如权利要求1所述的基于流批一体化的数据湖服务平台构建方法,其特征在于,在所述步骤
S1
中,所述对每个数据源进行抽象,包括如下步骤:对所述数据源配置轻量级开发界面及目录树形式的管理界面,以通过所述管理界面对所述数据源进行开发和管理;所述对数据接入行为进行抽象,包括如下步骤:对每个所述数据源均抽象出任务运行配置

数据写入策略

脏数据过滤策略和接入任务运行时间策略的数据接入行为
。3.
如权利要求1所述的基于流批一体化的数据湖服务平台构建方法,其特征在于,在所述步骤
S2
中,所述数据湖服务平台采用
HDFS
分布式文件系统对所述数据湖中的数据进行分布式文件存储
。4.
如权利要求1所述的基于流批一体化的数据湖服务平台构建方法,其特征在于,在所述步骤
S2
中,所述数据湖服务平台采用
Mysql
数据库作为底层存储,利用...

【专利技术属性】
技术研发人员:李海伟朱斌张宝玉李宗倍窦康
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1