【技术实现步骤摘要】
一种基于流批一体化的数据湖服务平台构建方法
[0001]本专利技术涉及计算机软件
,特别涉及一种基于流批一体化的数据湖服务平台构建方法
。
技术介绍
[0002]大数据架构方案涉及流数据
、
批数据
、
湖数据等,来满足不同类型数据的处理需求,具体来说:
[0003]流数据一般指实时产生的数据流,例如传感器数据
、
日志数据等
。
为了处理流数据,可以使用流数据处理引擎,如
Apache Kafka
或
Apache Flink
等
。
这些引擎可以实时处理数据流,并将数据流转换为适合存储的格式
。
[0004]批数据一般指离线处理的数据,例如从数据库中导出的数据
、
历史数据等
。
为了处理批数据,可以使用批处理引擎,如
Apache Hadoop
或
Apache Spark
等
。
这些引擎可以在集群中进行并行处理,并将处理结果存储到数据湖或数据仓库中
。
[0005]数据湖一般指一种存储结构,用于存储各种原始数据和处理数据,例如批数据和流数据
。
数据湖通常采用分布式存储系统,如
Hadoop HDFS
或
Amazon S3
等
。
为了对数据湖中的数据进行管理和查询,可以使用查询引擎,如
Ap ...
【技术保护点】
【技术特征摘要】
1.
一种基于流批一体化的数据湖服务平台构建方法,其特征在于,包括如下步骤:步骤
S1
,对每个数据源和数据接入行为进行抽象,根据抽象后的数据源和数据接入行为,采用
Flink CDC
方式将数据源统一接入数据作业底层;构建数据湖服务平台和数据总线接入作业任务,所述数据总线接入作业任务实现对数据接入的开发作业进行统一管理,将数据源统一接入至数据湖中;步骤
S2
,由数据湖服务平台对接入到所述数据湖中的数据进行分布式文件和元数据的统一存储,并对接入的数据采用统一的数据湖表格式,以进行离线数据和实时数据的统一分层和统一存储;步骤
S3
,所述数据湖服务平台采用
Flink
作为流批一体计算引擎,基于
Flink SQL GateWay
构建统一数据湖服务平台的网关,并统一采用
Flink SQL
作为流批数据处理的开发语言,实现对接入后的数据根据业务时效性进行流批处理
,
以构建基于流批一体的数据湖服务平台,所述基于流批一体的数据湖服务平台执行的
Flink
作业,在流和批两种执行模式之间自由进行切换并采用同一套代码;步骤
S4
,作业监控中心采用被动推送来获取流处理及批处理的
metrics
数据,对
metrics
数据进行查询分析,当判断
metrics
数据的指标达到预设告警阈值时,发送告警通知给相关管理员,同时在作业监控展示工具中进行度量分析及仪表盘展示
。2.
如权利要求1所述的基于流批一体化的数据湖服务平台构建方法,其特征在于,在所述步骤
S1
中,所述对每个数据源进行抽象,包括如下步骤:对所述数据源配置轻量级开发界面及目录树形式的管理界面,以通过所述管理界面对所述数据源进行开发和管理;所述对数据接入行为进行抽象,包括如下步骤:对每个所述数据源均抽象出任务运行配置
、
数据写入策略
、
脏数据过滤策略和接入任务运行时间策略的数据接入行为
。3.
如权利要求1所述的基于流批一体化的数据湖服务平台构建方法,其特征在于,在所述步骤
S2
中,所述数据湖服务平台采用
HDFS
分布式文件系统对所述数据湖中的数据进行分布式文件存储
。4.
如权利要求1所述的基于流批一体化的数据湖服务平台构建方法,其特征在于,在所述步骤
S2
中,所述数据湖服务平台采用
Mysql
数据库作为底层存储,利用...
【专利技术属性】
技术研发人员:李海伟,朱斌,张宝玉,李宗倍,窦康,
申请(专利权)人:中电信数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。