【技术实现步骤摘要】
数据湖上数据更新与读取的方法及相关设备
[0001]本申请涉及数据存储
,尤其涉及一种数据湖上数据更新与读取的方法及相关设备。
技术介绍
[0002]随着大数据时代的到来,数据湖项目成为了越来越多企业组织中的热门话题。数据湖为集中存储、处理和分析大规模数据的平台,可以将企业的所有数据汇总到一个位置,实现数据的共享、标准化和优化,从而为企业决策者和数据分析师提供更加全面和深入的洞察力。
[0003]数据湖为上层应用提供服务,需要使用不同的大数据处理框架进行海量数据的处理与存储。如何实现数据湖适配不同的大数据处理框架时的读写行为一致性,是亟待解决的问题。
技术实现思路
[0004]有鉴于此,本申请的目的在于提出一种数据湖上数据更新与读取的方法及相关设备。
[0005]基于上述目的,本申请提供了数据湖上数据更新与读取的方法包括:获取数据更新与读取请求;根据所述数据更新与读取请求,生成与所述数据更新与读取请求对应的初始任务执行计划;根据所述数据更新与读取请求对应的逻辑数据结构与所述数据更新与读取 ...
【技术保护点】
【技术特征摘要】
1.一种数据湖上数据更新与读取的方法,其特征在于,包括:获取数据更新与读取请求;根据所述数据更新与读取请求,生成与所述数据更新与读取请求对应的初始任务执行计划;根据所述数据更新与读取请求对应的逻辑数据结构与所述数据更新与读取请求对应的数据文件的物理数据结构,修正所述初始任务执行计划,得到修正任务执行计划;按照所述修正任务执行计划,执行数据更新与读取任务。2.根据权利要求1所述的方法,其特征在于,所述根据所述数据更新与读取请求对应的逻辑数据结构与所述数据更新与读取请求对应的数据文件的物理数据结构,修正所述初始任务执行计划,得到修正任务执行计划包括:读取所述数据更新与读取请求对应的逻辑数据结构,得到所述逻辑数据结构的第一字段集合;读取所述与所述数据更新与读取请求对应的数据文件的物理数据结构,得到所述数据文件的第二字段集合;对所述第一字段集合与所述第二字段集合进行集合求交,得到字段交集;根据所述字段交集和所述逻辑数据结构的字段组织顺序,修正所述初始任务执行计划中的数据文件的字段读取内容和字段读取顺序。3.根据权利要求2所述的方法,其特征在于,还包括:分析所述字段交集的第三字段集合的字段与所述逻辑数据结构的第一字段集合的字段是否一致;响应于确定所述第一字段集合包括不存在于所述第三字段集合中的字段,在数据内存模型中补充所述不存在于所述第三字段集合中的字段。4.根据权利要求1所述的方法,其特征在于,所述数据文件对应的数据记录具有更新时间和主键值;所述数据文件包括原始数据文件和增量数据文件;所述按照所述修正任务执行计划,执行数据更新与读取任务包括:提供全局优先队列,所述全局优先队列中包括原始数据文件对应的数据记录和增量数据文件对应的数据记录;响应于确定所述全局优先队列中的数据记录不为空,根据更新时间和主键值,确定所述全局优先队列中的数据记录的推出顺序;根据推出顺序从小到大排列从所述全局优先队列中推出的数据记录;...
【专利技术属性】
技术研发人员:曾华,陈绪,朱亚东,
申请(专利权)人:北京数元灵科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。