【技术实现步骤摘要】
本专利技术涉及大数据,尤其涉及一种数据管理方法、装置、系统、存储介质、程序产品和设备。
技术介绍
1、在人工智能技术中,广泛使用深度学习对模型进行训练,训练时需要大量的结构化数据和非结构化数据,这些数据如何存储和管理,以及数据的合规性都至关重要。针对训练数据的存储和管理,业界广泛使用数据湖技术。数据湖是集大数据存储、处理、分析的一种基础设施,可以对结构化、非结构化等各种数据进行全量存储、多模式处理与全生命周期管理。针对数据的合规性,数据是人工智能的基础,数据的合规和准确直接影响模型最终效果。业界目前的做法是在训练前,通过自动或者人工等方式对数据进行预处理和校验,例如对于非结构图片数据,如果缺少标注数据或者标注数据错误,都需要重新生成或者修复标注数据。
2、当前iceberg/hudi/delta等主流的开源数据湖产品在数据入湖时,数据的原始内容也一起存储在数据湖中,数据类型不同,数据的原始内容也有所差异,图片、音频、视频等非结构化数据会占用较大空间,会严重影响数据查询效率。
技术实现思路<
...【技术保护点】
1.一种数据管理方法,其特征在于,应用于第一服务器;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标数据对应的标注信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述第一配置信息还包括用于指示是否进行目标检测的指示信息;所述基于目标检测模型对所述目标数据进行检测,包括:
5.根据权利要求2所述的方法,其特征在于,所述第一配置信息还包括所述标注信息对应的格式信息;所述将所述标注信息存储至所述数据湖,包括:
6.根据权利
...【技术特征摘要】
1.一种数据管理方法,其特征在于,应用于第一服务器;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标数据对应的标注信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述第一配置信息还包括用于指示是否进行目标检测的指示信息;所述基于目标检测模型对所述目标数据进行检测,包括:
5.根据权利要求2所述的方法,其特征在于,所述第一配置信息还包括所述标注信息对应的格式信息;所述将所述标注信息存储至所述数据湖,包括:
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1至5任一项所述的方法,其特征在于,所述获取目标数据对应的第一配置信息,包括:
8.一种数据管理方法,其特征在于,应用于第二服务器;所述方法包括:
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
11.根据权利要求10所述的方法,其特征在于,所述第二配置信息还包括所述目标数据对应的查询信息;所述方法还包括:
12.根据权利要求8至11任一项所述的方法,其特征在于,所述第二配置信息还包括所述目标数据的第二地址信息;所述方法还包括:
13.根据权利要求8至11任一项所述的方法,其特征在于,所述获取目标数据在数据湖中关联的数据表的第二配置信息,包括:
14.一种数据管理方法,其特征在于,应用于数据管理平台;所述方法包括:
15.根据权利要求14所述的方法,其特征在于,在所述数据类型为图像类型的情况下,所述第二处理结果还包括所述目标数据对应的标注信息;所述标注信息由所述第二服务器根据所述数据表关联的标签表从所述数据湖中获取,所述标签表中记录有至少一个标注信息各自对应的第二相关信息,所述第二相关信息至少包括标注信息与对应的数据之间的关联关系。
16.根据权利要求15所述的方法,其特征在于,所述第一配置信息还包括用于指示所述第一服务器是否进行目标检测的指示信息。
17.根据权利要求15所述的方法,其特征在于,所述第一配置信息还包括所述标注信息对应的格式信息,所述格式信息用于所述第一服务器对所述标注信息进行格式转换,所述数据湖中存储格式转换后的标注信息。
18.根...
【专利技术属性】
技术研发人员:汝佳,殷科科,吴鹏,赵学峰,
申请(专利权)人:中国移动通信有限公司研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。