【技术实现步骤摘要】
本专利技术公开一种训练数据集版本管理方法及系统,涉及数据管理。
技术介绍
1、随着人工智能技术的飞速发展和大数据时代的到来,训练数据集作为机器学习模型的基石,其规模日益庞大,复杂度也显著提升。然而目前存在训练数据集版本控制不严格、版本信息缺失、更新效率低下、回溯困难等问题。这些问题不仅增加了数据管理的复杂度,还可能导致数据一致性问题频发,进而影响模型训练的结果和可靠性。同时,由于缺乏有效的版本控制机制,不同版本之间的数据差异难以准确追踪,历史版本数据也往往难以恢复。更为严重的是,在数据传输、存储和处理过程中,数据的完整性可能会受到破坏,如数据被篡改、丢失或损坏等,这也直接影响模型训练的结果和可靠性。
技术实现思路
1、本专利技术针对现有技术的问题,提供一种训练数据集版本管理方法及系统,显著降低数据管理的复杂度,提升版本管理的效率和准确性,从而保障模型训练的质量和可靠性。
2、本专利技术提出的具体方案是:
3、本专利技术提供一种训练数据集版本管理方法,包括:
< ...【技术保护点】
1.一种训练数据集版本管理方法,其特征是包括:
2.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
3.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集
...【技术特征摘要】
1.一种训练数据集版本管理方法,其特征是包括:
2.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
3.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
4.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤25中校验数据集完整性,包括:
5.一种训练数据集版本...
【专利技术属性】
技术研发人员:宋喆,肖雪,玄德,张建伟,高传集,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。