当前位置: 首页 > 专利查询>南湖实验室专利>正文

一种基于管道技术的数据湖交互方法及系统技术方案

技术编号:39664169 阅读:9 留言:0更新日期:2023-12-11 18:27
本发明专利技术公开一种基于管道技术的数据湖交互方法及系统,涉及数据湖交互领域,该方法包括初始化数据管道;所述数据管道用于将同一数据类型的数据集进行处理转换为另一数据类型的数据集;利用初始化的数据管道与数据湖进行数据湖交互;所述数据湖交互包括:数据类型转换

【技术实现步骤摘要】
一种基于管道技术的数据湖交互方法及系统


[0001]本专利技术涉及数据湖交互领域,特别是涉及一种基于管道技术的数据湖交互方法及系统


技术介绍

[0002]数据湖或
hub
是数据承载在基于可向外扩展的
HDFS
廉价存储硬件之上的

但数据量越大,越需要各种不同种类的存储

[0003]而如何在数据量庞大及类型多的情况下提高数据湖中数据的输出和输入效率,实现在亟待解决的问题


技术实现思路

[0004]本专利技术的目的是提供一种基于管道技术的数据湖交互方法及系统,能够提高数据湖中数据的输出和输入效率

[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于管道技术的数据湖交互方法,包括:
[0007]初始化数据管道;所述数据管道用于将同一数据类型的数据集进行处理转换为另一数据类型的数据集;
[0008]利用初始化的数据管道与数据湖进行数据湖交互;所述数据湖交互包括:数据类型转换

数据湖类型适配
、Session
构建以及元数据构建

[0009]可选地,所述数据管道包括:多个数据处理器;
[0010]所述数据处理器用于并行对数据集中的数据进行转化操作

[0011]可选地,所述利用初始化的数据管道与数据湖进行数据湖交互,具体包括:
[0012]判断数据集是有界的数据集还是无界的数据集;
[0013]若数据集是有界的数据集,则直接转化为数据管道中对应的数据集;
[0014]若数据集是无界的数据集,则利用数据对应的转换方法转换为数据管道中对应的数据集;
[0015]利用初始化的数据管道中的数据处理器利用预设的转换操作进行数据管道中对应的数据集类型的转换;
[0016]利用
DataLakeIO

wirte
方法,将转换类型的数据集以及入湖的参数输入数据湖;所述入湖的参数包括:数据湖类型

存储模式
、schema、
存储路径

以及
session
的配置信息;
[0017]数据湖根据数据对应的存储模式和数据湖类型存储,将数据存储到对应的存储路径中

[0018]可选地,所述利用初始化的数据管道与数据湖进行数据湖交互,具体包括:
[0019]从数据湖中获取出湖的参数;所述出湖的参数包括:数据湖类型

存储路径
、session
的配置信息以及
Coder
类;
[0020]根据
session
的配置信息构建
session

[0021]根据数据湖类型和存储路径读取数据湖中的数据;
[0022]通过迭代器将数据从
Row
类型转化为所需类型;
[0023]将类型转换后的数据传入初始化的数据管道中

[0024]可选地,所述将类型转换后的数据传入初始化的数据管道中,之后还包括:
[0025]通过
kafka
等消息中间件发布数据消息或输出到日志

[0026]一种基于管道技术的数据湖交互系统,包括:
[0027]数据管道初始化模块,用于初始化数据管道;所述数据管道用于将同一数据类型的数据集进行处理转换为另一数据类型的数据集;
[0028]数据湖交互模块,用于利用初始化的数据管道与数据湖进行数据湖交互;所述数据湖交互包括:数据类型转换

数据湖类型适配
、Session
构建以及元数据构建

[0029]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0030]本专利技术所提供的一种基于管道技术的数据湖交互方法及系统,基于管道技术对数据处理过程进行封装,进而利用初始化的数据管道与数据湖进行数据湖交互,提高数据湖数据交互的效率

附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0032]图1为本专利技术所提供的一种基于管道技术的数据湖交互方法流程示意图;
[0033]图2为利用数据处理器将输入的数据集处理成输出的数据集的流程示意图;
[0034]图3为利用多个数据处理器将输入的数据集处理成输出的数据集的流程示意图;
[0035]图4为数据管道示意图;
[0036]图5为数据写入到数据湖的过程示意图;
[0037]图6为从数据湖读取数据的过程示意图

具体实施方式
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0039]本专利技术的目的是提供一种基于管道技术的数据湖交互方法及系统,能够提高数据湖中数据的输出和输入效率

[0040]为使本专利技术的上述目的

特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明

[0041]如图1所示,本专利技术所提供的一种基于管道技术的数据湖交互方法,包括:
[0042]S101
,初始化数据管道;所述数据管道用于将同一数据类型的数据集进行处理转换为另一数据类型的数据集

[0043]数据管道输入的数据集
DataCollection
,可以是有界的数据集,也可以是无界的数据集,数据集中的元素可以是任意类型的,但是所有的元素必须是相同类型的

数据集在管道中传输处理时,需要对其元素进行进入数据管道时的序列化和输出数据管道时的反序列化,利用
Java
基础类型的编码,对于其他需要特殊处理的序列化和反序列化编码,比如为了安全起见做加密,支持自定义
Coder
对象

[0044]所述数据管道包括:多个数据处理器
DataTransform
;所述数据处理器
DataTransform
用于并行对数据集中的数据进行转化操作

[0045]如图2和图3所示,数据处理器
DataTransform
将输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于管道技术的数据湖交互方法,其特征在于,包括:初始化数据管道;所述数据管道用于将同一数据类型的数据集进行处理转换为另一数据类型的数据集;利用初始化的数据管道与数据湖进行数据湖交互;所述数据湖交互包括:数据类型转换

数据湖类型适配
、Session
构建以及元数据构建
。2.
根据权利要求1所述的一种基于管道技术的数据湖交互方法,其特征在于,所述数据管道包括:多个数据处理器;所述数据处理器用于并行对数据集中的数据进行转化操作
。3.
根据权利要求2所述的一种基于管道技术的数据湖交互方法,其特征在于,所述利用初始化的数据管道与数据湖进行数据湖交互,具体包括:判断数据集是有界的数据集还是无界的数据集;若数据集是有界的数据集,则直接转化为数据管道中对应的数据集;若数据集是无界的数据集,则利用数据对应的转换方法转换为数据管道中对应的数据集;利用初始化的数据管道中的数据处理器利用预设的转换操作进行数据管道中对应的数据集类型的转换;利用
DataLakeIO

wirte
方法,将转换类型的数据集以及入湖的参数输入数据湖;所述入湖的参数包括:数据湖类型

存储模式
、schema、
存储路径

以及
session
的配置信息;数据湖根据数据对应的存储...

【专利技术属性】
技术研发人员:张涛刘昊刘荫隆王朋郁晨熹王琪陈巍刘哲峰陈志凌
申请(专利权)人:南湖实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1