数据管控方法、系统、装置和介质制造方法及图纸

技术编号:30442854 阅读:27 留言:0更新日期:2021-10-24 18:32
本发明专利技术涉及数据管控技术领域,具体提供一种数据管控方法、系统、装置和介质,如何有效降低数据集的存储空间,以及外部设备读取多个数据集导致的数据处理效率降低的问题。为此目的,本发明专利技术的数据管控方法在接收到数据需求平台发送的数据查询请求后,根据请求确定版本依赖路径中每个版本的图文数据集文件的版本目录,并进一步将版本目录合并生成新的版本目录,以便于数据需求平台读取相应的图文数据集文件,其中,版本依赖路径中每个版本的图文数据集文件是根据前一个版本的图文数据集文件,通过数据增量更新创建的,确保图文数据集的数据量满足数据需求平台的需求,有效利用底层存储空间,并提升数据需求平台的数据处理效率。并提升数据需求平台的数据处理效率。并提升数据需求平台的数据处理效率。

【技术实现步骤摘要】
数据管控方法、系统、装置和介质


[0001]本专利技术涉及数据管控
,具体提供一种数据管控方法、系统、装置和介质。

技术介绍

[0002]训练平台提供包括数据集数据管理,数据标注以及模型训练的功能。其中,数据集中包含大量的数据文件,包括图片、视频以及文本文件等。同时,由于模型训练的需要,数据集会存在不同的版本,以实现不同目的的模型训练以及训练改进功能。不同版本的数据集之间是存在继承关系的,比如V2版本的数据集是由V1版本的数据集派生而来的。因而,不同版本的数据集之间会存在大量的重复数据,同时也会有一些特有的差异。
[0003]但是,不同版本的数据集产生的大量重复数据会在底层存储空间中占用大量的存储空间。此外,当训练平台在同时读取多个不同版本数据集的数据进行训练时,由于这些数据中会存在大量的重复数据,因此,会显著增加训练平台的数据读取量。而目前训练平台通常是采用图形处理器(Graphics Processing Unit,GPU)等处理器读取数据并根据读取到的数据进行训练,如果数据读取量增大,会导致GPU等处理器的I/O吞吐量提高,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据管控方法,其特征在于,应用于图文数据管控,所述方法包括:接收数据需求平台发送的数据查询请求,所述数据查询请求包括待查询图文数据集文件的版本;确定所述版本的版本依赖路径中每个版本的图文数据集文件的版本目录;对所述版本目录进行版本合并生成新的版本目录,以便所述数据需求平台通过访问所述新的版本目录读取相应的图文数据集文件;其中,所述版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,所述创建的方式包括以所述前一个版本的图文数据集文件为基础进行数据增量更新。2.根据权利要求1所述的数据管控方法,其特征在于,“对所述版本目录进行版本合并生成新的版本目录”的步骤包括:按照预设的版本顺序对所述版本目录进行排序;使用堆叠文件系统将排序后的所述版本目录进行合并以生成所述新的版本目录,并将所述新的版本目录挂载至预设的挂载点。3.根据权利要求1所述的数据管控方法,其特征在于,所述方法还包括通过下列步骤以待创建图文数据集文件依赖的图文数据集文件为基础进行数据增量更新,以完成所述待创建图文数据集文件的创建:建立所述待创建图文数据集文件的版本和版本目录;将所述待创建图文数据集文件依赖的图文数据集文件的版本目录作为所述待创建图文数据集文件的父级目录,将所述待创建图文数据集文件的版本目录挂载到所述父级目录下;根据所述待创建图文数据集文件的图文数据以及所述依赖的图文数据集文件的图文数据,确定需要增加的图文数据;将所述需要增加的图文数据存储至所述待创建图文数据集文件的版本目录指定的存储空间,以完成所述待创建图文数据集文件的创建;并且/或者,所述方法还包括通过下列步骤以待创建图文数据集文件依赖的图文数据集文件为基础进行数据全量备份,以完成所述待创建图文数据集文件的创建:建立所述待创建图文数据集文件的版本和版本目录;将所述待创建图文数据集文件依赖的图文数据集文件的版本目录作为所述待创建图文数据集文件的父级目录,将所述待创建图文数据集文件的版本目录挂载到所述父级目录下;将所述待创建图文数据集文件依赖的图文数据集文件对应的所有图文数据全部存储至所述待创建图文数据集文件的版本目录指定的存储空间,以完成所述待创建图文数据集的创建。4.根据权利要求3所述的数据管控方法,其特征在于,“确定需要增加的图文数据”的步骤具体包括:分别计算所述待创建图文数据集文件的图文数据和所述依赖的图文数据集文件的图文数据的散列值;
对所述散列值进行比较,确定所述需要增加的图文数据。5.根据权利要求1所述的数据管控方法,其特征在于,所述方法还包括通过下列步骤删除图文数据集文件:当需要删除存在依赖关系的图文数据集文件中的一部分图文数据集文件时,获取需要进行删除的图文数据集文件的版本;确定是否存在依赖所述版本的其他版本的图文数据集文件;若是,则不删除所述图文数据集文件;若否,则删除所述图文数据集文件,并删除所述图文数据集文件的版本目录;并且/或者,当需要删除存在依赖关系的所有图文数据集文件时,获取每个图文数据集文件的版本和版本目录;按照预设的版本顺序依次删除对应版本的图文数据集文件并删除相应的版本目录。6.一种数据管控系统,其特征在于,应用于图文数据管控,所述系统包括:查询请求接收模块,其被配置为接收数据需求平台发送的数据查询请求,所述数据查询请求包括待查询图文数据集文件的版本;版本目录确定模块,其被配置为确定所述版本的版本依赖路径中每个版本的图文数据集文件的版本目录;版本目录合并模块,其被配置为对所述版本目录进行版本合并生成新的版本目录,以便所述数据需求平台通过访问所述新的版本目录读取相应的图文数据集文件;其中,所述版本依赖路径中每个版本的图文数据集文件分别是根据各自依赖的前一个版本的图文数据集文件创建的,所述创建的方式包括以所述前一个版本的图文数据集文件为基础进行数据增量更新。7.根据权利...

【专利技术属性】
技术研发人员:余晓峰
申请(专利权)人:江苏云从曦和人工智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1