System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 湖仓一体数据处理方法、系统、电子设备及存储介质技术方案_技高网

湖仓一体数据处理方法、系统、电子设备及存储介质技术方案

技术编号:40871200 阅读:5 留言:0更新日期:2024-04-08 16:38
本申请提供了一种湖仓一体数据处理方法、系统、电子设备及存储介质,其中,该方法包括:获取至少一个采集作业的信息,按照采集周期并以数据接入方式从数据源获取目标数据,并基于预先训练的数据类型检测模型,将目标数据存储至数据湖仓中,其中,数据接入方式用于指示数据接入时的格式,数据接入方式包括:文件接入方式或消息队列接入方式,数据湖仓用于存储结构化数据、半结构化数据以及非结构化数据。本申请通过数据统一入湖,避免多路径接入的高成本和复杂性,并避免无效数据复制和传输,通过数据统一存储,避免数据不一致的问题,减轻系统运维成本,同时提高数据分析的准确性和灵活性。

【技术实现步骤摘要】

本申请涉及数据处理,具体而言,涉及一种湖仓一体数据处理方法、系统、电子设备及存储介质


技术介绍

1、近年来,对数据存储、管理及分析需求较高的企业希望能够构建一个集数据存储、分析和应用于一体的数据管理解决方案,以提高数据的价值和使用效率。而将数据湖和数据仓库的优点结合起来,实现湖仓一体,打破两者之间的壁垒,可以满足企业不断变化的数据需求,实现企业生产过程的全流程数据整合、管理、分析和应用。

2、现有技术中,为将数据湖和数据仓库结合以实现湖仓一体,常依托云原生特性、计算存储分离架构、强事务特性、完整的数据库语言(structured query language,sql)标准支持及高性能并行执行能力等一些列底层技术变革,通过在数据仓库中创建外部表并映射到关系数据库中的表或者获取外部表中数据的结构信息,从而获取数据。

3、但是,现有技术的数据湖和数据仓库在物理上仍然相互独立,并未将二者融为一体,导致目前的湖仓一体方案存在灵活性不足以及时效性差的问题。


技术实现思路

1、本申请的目的在于,针对上述现有技术中的不足,提供一种湖仓一体数据处理方法、系统、电子设备及存储介质,以解决现有技术中灵活性不足及时效性差的问题。

2、为实现上述目的,本申请采用的技术方案如下:

3、第一方面,本申请提供了一种湖仓一体数据处理方法,应用于湖仓一体系统中的服务器,所述湖仓一体系统中包括所述服务器以及客户端,所述方法包括:

4、获取用户指示的至少一个采集作业的信息,所述采集作业的信息至少包括:采集作业的标识、数据源的标识、数据采集周期、数据接入方式;

5、按照所述采集周期并以所述数据接入方式从所述数据源获取目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中,其中,所述数据接入方式用于指示数据接入时的格式,所述数据接入方式包括:文件接入方式或消息队列接入方式,所述数据湖仓用于存储结构化数据、半结构化数据以及非结构化数据。

6、可选的,所述获取用户指示的至少一个采集作业的信息,包括:

7、获取用户通过所述客户端输入的至少一个数据源的信息,所述数据源的信息包括:数据源的标识、数据源的类型;

8、获取用户通过所述客户端输入的所述采集作业的信息,其中,所述采集作业的数据源的标识为所述至少一个数据源中的一个数据源的标识。

9、可选的,所述按照所述采集周期并以所述数据接入方式从所述数据源获取目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中,包括:

10、若所述数据接入方式为所述文件接入方式,则按照所述采集周期从所述数据源采集原始数据,并按照预设的文件传输格式将所述原始数据转化为所述目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中。

11、可选的,所述按照所述采集周期并以所述数据接入方式从所述数据源获取目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中,包括:

12、若所述数据接入方式为所述消息队列接入方式,则按照所述采集周期从所述数据源采集原始数据,并按照预设的消息队列传输格式将所述原始数据转化为所述目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中。

13、可选的,所述方法还包括:

14、获取用户指示的至少一个计算作业的信息,所述计算作业的信息至少包括:计算作业的标识、计算作业的类型、计算作业的内容以及计算调度周期,其中,所述计算作业的内容包括:至少一个输入数据、所述输入数据的计算方式以及输出数据,所述输入数据的计算方式为所述计算作业的类型对应的计算方式;

15、按照所述计算调度周期,基于所述计算作业的类型以及计算作业的内容进行计算处理。

16、可选的,所述按照所述计算调度周期,基于所述计算作业的类型以及计算作业的内容进行计算处理,包括:

17、若所述计算作业的类型为流式计算作业,则按照计算作业内容中的输入数据的计算方式的顺序,依次对输入数据进行计算,并将计算结果作为所述输出数据;

18、若所述计算作业的类型为批量计算作业,则按照计算作业内容中的输入数据的计算方式,对所述至少一个输入数据进行计算,并将计算结果作为所述输出数据。

19、可选的,所述方法还包括:

20、获取用户通过所述客户端输入的数据库访问语句;

21、执行所述数据库访问语句,以对所述湖仓一体系统中的数据进行访问。

22、可选的,所述方法还包括:

23、获取多个历史数据及历史数据对应的存储类型;

24、对所述历史数据进行画像,获取历史数据的数据类型信息及数据规模信息;

25、根据所述历史数据、历史数据的所述数据类型信息、历史数据的所述数据规模信息及所述历史数据对应的存储类型训练得到数据类型检测模型。

26、第二方面,本申请提供了一种湖仓一体数据处理系统,所述系统包括:服务器以及客户端,所述服务器用于执行第一方面所述的方法的步骤进行数据处理。

27、第三方面,本申请提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述湖仓一体数据处理方法的步骤。

28、第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述湖仓一体数据处理方法的步骤。

29、本申请的有益效果是:湖仓一体系统中的服务器首先获取用户指示的至少一个采集作业的信息,再按照采集周期并以数据接入方式从数据源获取目标数据,并基于预先训练的数据类型检测模型,将目标数据存储至数据湖仓中。通过文件接入方式和消息队列接入方式,将结构化数据、半结构化数据和非结构化数据统一采集入湖,避免现有技术中多路径接入的高成本和复杂性,并避免无效数据复制和传输。并通过基于预先训练的数据类型检测模型将目标数据存储至数据湖仓,把采集到的数据统一存入湖仓一体系统中的方式,不仅可以保证数据写入和读取的效率,保障各类数据的有效互通,而且避免数据湖和数据仓库之间数据的重复存储,避免数据不一致的问题,减轻系统运维成本,同时提高数据分析的准确性和灵活性。

本文档来自技高网...

【技术保护点】

1.一种湖仓一体数据处理方法,其特征在于,应用于湖仓一体系统中的服务器,所述湖仓一体系统中包括所述服务器以及客户端,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取用户指示的至少一个采集作业的信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述按照所述采集周期并以所述数据接入方式从所述数据源获取目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中,包括:

4.根据权利要求1所述的方法,其特征在于,所述按照所述采集周期并以所述数据接入方式从所述数据源获取目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述按照所述计算调度周期,基于所述计算作业的类型以及计算作业的内容进行计算处理,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

9.一种湖仓一体数据处理系统,其特征在于,所述系统包括:服务器以及客户端,所述服务器用于执行权利要求1-8任一项所述的方法的步骤进行数据处理。

10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述程序指令,以执行时执行如权利要求1至8任一所述的湖仓一体数据处理方法的步骤。

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8任一所述的湖仓一体数据处理方法的步骤。

...

【技术特征摘要】

1.一种湖仓一体数据处理方法,其特征在于,应用于湖仓一体系统中的服务器,所述湖仓一体系统中包括所述服务器以及客户端,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取用户指示的至少一个采集作业的信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述按照所述采集周期并以所述数据接入方式从所述数据源获取目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中,包括:

4.根据权利要求1所述的方法,其特征在于,所述按照所述采集周期并以所述数据接入方式从所述数据源获取目标数据,并基于预先训练的数据类型检测模型,将所述目标数据存储至数据湖仓中,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述按照所述计算调度周期,基于所述计算作业的类...

【专利技术属性】
技术研发人员:吴春辉张晓宁郭永刚苏亚晶
申请(专利权)人:安徽数智建材研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1