基于Git的数据集版本管理方法、装置、设备及存储介质制造方法及图纸

技术编号:34565792 阅读:30 留言:0更新日期:2022-08-17 12:55
本申请涉及深度学习领域,本申请提供一种基于Git的数据集版本管理方法、装置、设备及存储介质,所述方法包括:根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别;在数据集列表文件的各个版本数据集中,查找所述图片标签类别对应的版本数据集,作为最新版本数据集;根据所述最新版本数据集,训练生成所述目标深度学习模型。本发明专利技术基于Git系统,减少了引用多版本数据集带来的错误,方便用户通过访问历史版本进行回溯操作,解决了目前对如图片类的非结构化数据进行统一版本管理的技术问题,提高用户对数据集的使用体验感。提高用户对数据集的使用体验感。

【技术实现步骤摘要】
基于Git的数据集版本管理方法、装置、设备及存储介质


[0001]本专利技术涉及深度学习
,尤其涉及一种基于Git的数据集版本管理方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着深度学习技术的不断发展,使得机器也能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。其中,深度学习模型的构建离不开算法、算力和数据这三个要素,而深度学习模型优化需要依赖不断新增的有特征标签的数据;目前,在不同场景下,构建深度学习模型需要各自场景下的样本数据,而不同场景下会生成了多个版本的数据集。由于存在像图片这样的非结构化数据集,不同的场景下会生成多个版本。而当在同一项目中引用了同一数据集的多个版本时,会在生成期间出现错误,同时用户不能够访问历史版本进行回溯操作。因此,在利用Git版本管理的基础下,如何实现对如图片类的非结构化数据进行统一版本管理成为了亟待解决的技术问题,提高用户对数据集的使用体验感。

技术实现思路

[0003]本专利技术的主要目的在于提供一种基于Git的数据集版本管理方法、装置、设备及计算机可读存储介质,旨在解决现有对如图片类的非结构化数据进行统一版本管理的技术问题。
[0004]为实现上述目的,本专利技术提供一种基于Git的数据集版本管理方法,所述基于Git的数据集版本管理方法包括:根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别;在数据集列表文件的各个版本数据集中,查找所述图片标签类别对应的版本数据集,作为最新版本数据集;根据所述最新版本数据集,训练生成所述目标深度学习模型。
[0005]进一步地,所述根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别骤之前还包括:
[0006]从原始视频文件中按帧抽取出图片,获取所述原始图片集;
[0007]获取所述原始图片集中的图片名称以及相关属性,生成数据集信息文件;
[0008]所述根据所述最新版本数据集,训练生成所述目标深度学习模型还包括:
[0009]根据所述最新版本数据集以及所述数据集信息文件,生成样本数据;
[0010]根据所述样本数据,训练生成所述目标深度学习模型。
[0011]进一步地,所述根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别包括:
[0012]获取所述目标深度学习模型对应的模型训练任务需求,确定目标标签组,并将所述目标标签组作为所述图片标签类别,所述图片标签类别至少包括产品、任务、相机和项目标签。
[0013]进一步地,所述在数据集列表文件的各个版本数据集中,查找所述图片标签类别对应的版本数据集,作为最新版本数据集包括:
[0014]将所述图片标签类别与所述数据集列表文件中的类别信息进行比对;
[0015]在所述数据集列表中存在与所述图片标签类别相同的类别信息时,确定与所述图片标签类别相同的类别信息对应的版本数据集,作为所述最新版本数据集。
[0016]进一步地,所述将所述图片标签类别与所述数据集列表文件中的类别信息进行比对之后,还包括:
[0017]在所述数据集列表中不存在与所述图片标签类别相同的类别信息时,根据所述图片标签类别以及原始图片集,生成所述最新版本数据集。
[0018]进一步地,所述根据所述最新版本数据集,训练生成所述目标深度学习模型包括:
[0019]将所述最新版本数据集传入标注系统中,并基于所述图片标签类别对所述最新版本数据集进行标注,生成标签文件集;
[0020]将所述标签文件集基于所述图片标签类别存储于对象存储系统,作为样本数据集;
[0021]将所述样本数据集传入训练服务器中,进行模型训练,生成所述目标深度学习模型。
[0022]进一步地,所述将所述最新版本数据集传入标注系统中还包括:
[0023]将所述最新版本数据集传入标注系统,并生成校验和(checksum);
[0024]将所述校验和(checksum)的校验值与所述最新版本数据集中的图片数量值比较;
[0025]若所述校验值和所述图片数量值相同,则所述最新版本数据集传输无误;
[0026]若所述校验值和所述图片数量值不同,则向发送方反馈所述最新版本数据集传输出错信息。
[0027]此外,为实现上述目的,本专利技术还提供一种Git的数据集版本管理装置,所述装置包括:
[0028]确定标签类别模块,用于根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别;
[0029]查找模块,用于在数据集列表文件的各个版本数据集中,查找所述图片标签类别对应的版本数据集,作为最新版本数据集;
[0030]训练模块,用于根据所述最新版本数据集,训练生成所述目标深度学习模型。
[0031]此外,为实现上述目的,本专利技术还提供一种基于Git的数据集版本管理设备,所述基于Git的数据集版本管理设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于Git的数据集版本管理程序,其中所述基于Git的数据集版本管理程序被所述处理器执行时,实现如上述的基于Git的数据集版本管理方法的步骤。
[0032]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于Git的数据集版本管理程序,其中所述基于Git的数据集版本管理程序被处理器执行时,实现如上述的基于Git的数据集版本管理方法的步骤。
[0033]本专利技术提供一种Git的数据集版本管理方法,所述方法根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别;在数据集列表文件的各个版本数据集中,查找所述图片标签类别对应的版本数据集,作为最新版本数据集;根据所述最新版本数据集,训练生成所述目标深度学习模型。由此,在利用Git版本管理的基础下,减少了引用多版本数据集带来的错误,方便用户通过访问历史版本进行回溯操作,解决了目前对如图片类的非
结构化数据进行统一版本管理的技术问题,提高用户对数据集的使用体验感。
附图说明
[0034]图1为本专利技术实施例方案中涉及的Git的数据集版本管理设备的硬件结构示意图;
[0035]图2为本专利技术Git的数据集版本管理方法第一实施例的流程示意图;
[0036]图3为本专利技术Git的数据集版本管理装置第一实施例的功能模块示意图。
[0037]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0038]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0039]本专利技术实施例涉及的基于Git的数据集版本管理方法主要应用于基于Git的数据集版本管理设备,该基于Git的数据集版本管理生成设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
[0040]参照图1,图1为本专利技术实施例方案中涉及的基于Git的数据集版本管理设备的硬件结构示意图。本专利技术实施例中,基于G本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Git的数据集版本管理方法,其特征在于,所述基于Git的数据集版本管理方法包括以下步骤:根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别;在数据集列表文件的各个版本数据集中,查找所述图片标签类别对应的版本数据集,作为最新版本数据集;根据所述最新版本数据集,训练生成所述目标深度学习模型。2.如权利要求1所述的基于Git的数据集版本管理方法,其特征在于,所述根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别骤之前还包括:从原始视频文件中按帧抽取出图片,获取所述原始图片集;获取所述原始图片集中的图片名称以及相关属性,生成数据集信息文件;所述根据所述最新版本数据集,训练生成所述目标深度学习模型还包括:根据所述最新版本数据集以及所述数据集信息文件,生成样本数据;根据所述样本数据,训练生成所述目标深度学习模型。3.如权利要求1所述的基于Git的数据集版本管理方法,其特征在于,所述根据目标深度学习模型对应的模型训练任务需求,确定图片标签类别包括:获取所述目标深度学习模型对应的模型训练任务需求,确定目标标签组,并将所述目标标签组作为所述图片标签类别,所述图片标签类别至少包括产品、任务、相机和项目标签。4.如权利要求1所述的基于Git的数据集版本管理方法,其特征在于,所述在数据集列表文件的各个版本数据集中,查找所述图片标签类别对应的版本数据集,作为最新版本数据集包括:将所述图片标签类别与所述数据集列表文件中的类别信息进行比对;在所述数据集列表中存在与所述图片标签类别相同的类别信息时,确定与所述图片标签类别相同的类别信息对应的版本数据集,作为所述最新版本数据集。5.如权利要求4所述的基于Git的数据集版本管理方法,其特征在于,所述将所述图片标签类别与所述数据集列表文件中的类别信息进行比对之后,还包括:在所述数据集列表中不存在与所述图片标签类别相同的类别信息时,根据所述图片标签类别以及原始图片集,生成所述最新版本数据集。6.如权利要求1

【专利技术属性】
技术研发人员:杜松显卢江涛唐伟王家奇吕标彪
申请(专利权)人:杭州野乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1