一种训练数据集版本管理方法及系统技术方案

技术编号:43400246 阅读:28 留言:0更新日期:2024-11-19 18:18
本发明专利技术公开一种训练数据集版本管理方法及系统,涉及数据管理技术领域;包括:步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,步骤2:管理数据集版本:步骤21:建立数据集版本,步骤22:利用公式V=D+T+S,生成数据集版本标识,步骤23:根据数据集版本,创建所选数据集的静态快照;步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,步骤25:校验数据集完整性;本发明专利技术降低数据管理复杂度,保障模型训练的质量和可靠性。

【技术实现步骤摘要】

本专利技术公开一种训练数据集版本管理方法及系统,涉及数据管理。


技术介绍

1、随着人工智能技术的飞速发展和大数据时代的到来,训练数据集作为机器学习模型的基石,其规模日益庞大,复杂度也显著提升。然而目前存在训练数据集版本控制不严格、版本信息缺失、更新效率低下、回溯困难等问题。这些问题不仅增加了数据管理的复杂度,还可能导致数据一致性问题频发,进而影响模型训练的结果和可靠性。同时,由于缺乏有效的版本控制机制,不同版本之间的数据差异难以准确追踪,历史版本数据也往往难以恢复。更为严重的是,在数据传输、存储和处理过程中,数据的完整性可能会受到破坏,如数据被篡改、丢失或损坏等,这也直接影响模型训练的结果和可靠性。


技术实现思路

1、本专利技术针对现有技术的问题,提供一种训练数据集版本管理方法及系统,显著降低数据管理的复杂度,提升版本管理的效率和准确性,从而保障模型训练的质量和可靠性。

2、本专利技术提出的具体方案是:

3、本专利技术提供一种训练数据集版本管理方法,包括:

<p>4、步骤1:建立本文档来自技高网...

【技术保护点】

1.一种训练数据集版本管理方法,其特征是包括:

2.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

3.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基...

【技术特征摘要】

1.一种训练数据集版本管理方法,其特征是包括:

2.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

3.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。

4.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤25中校验数据集完整性,包括:

5.一种训练数据集版本...

【专利技术属性】
技术研发人员:宋喆肖雪玄德张建伟高传集
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1