一种管理平台数据集的方法、系统、设备和存储介质技术方案

技术编号:32530927 阅读:34 留言:0更新日期:2022-03-05 11:25
本发明专利技术提供一种管理平台数据集的方法、系统、设备和存储介质,方法包括:将每个数据集中的文件采用多叉树结构来进行表示;选择要操作的数据集,并查询数据库中所述数据集已存在的最大版本号;对所述数据集进行操作,根据所述操作发布新的版本的数据集,并将所述数据库中的最大版本号加一;以及根据对应版本的数据集提交训练任务,并进行训练以生成模型。本发明专利技术有效的解决了数据修改难、管理缺失的问题;便于用户方便的从Web端进行数据集增删改的操作,且涉及较少的底层数据搬运,减少数据冗余。减少数据冗余。减少数据冗余。

【技术实现步骤摘要】
一种管理平台数据集的方法、系统、设备和存储介质


[0001]本专利技术涉及人工智能领域,更具体地,特别是指一种管理平台数据集的方法、系统、设备和存储介质。

技术介绍

[0002]随着AI(Artificial Intelligence,人工智能)训练平台的广泛推广,企业级应用越来越多,用户对于训练任务所用数据集的使用需求逐步增多,已经不仅仅局限于一份数据集的使用,用户经常需要对于其原始数据集做一些数据处理,形成一份新的数据集,继续跑一个新的训练任务。现有AI平台中大多提供一个公共数据集,用户很难根据需求对数据集稍作修改后,重新进行训练。AI平台的数据集管理功能,包括数据集增删改、处理流程可追溯,数据集多版本发布等,是目前客户需要的数据集管理解决方案,提高软件的可用性、易用性。该方案使用户对某原始数据集稍作更改后,发布该版本数据集,并指定特定版本数据集提交训练任务,进行训练生成模型。
[0003]目前AI训练平台采用公共数据集,公共数据集只可查看,不可修改,如果用户需要在公共数据集的基础上进行增删改,则需要从底层将公共数据集拷贝到用户家目本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种管理平台数据集的方法,其特征在于,包括如下步骤:将每个数据集中的文件采用多叉树结构来进行表示;选择要操作的数据集,并查询数据库中所述数据集已存在的最大版本号;对所述数据集进行操作,根据所述操作发布新的版本的数据集,并将所述数据库中的最大版本号加一;以及根据对应版本的数据集提交训练任务,并进行训练以生成模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述操作发布新的版本的数据集包括:响应于对所述数据集进行新增文件,创建第一目录并将新增的文件上传到所述第一目录中,并在所述第一目录中添加新增文件标签。3.根据权利要求1所述的方法,其特征在于,所述根据所述操作发布新的版本的数据集包括:响应于对所述数据集进行删除文件,创建第二目录并在所述第二目录中添加删除文件标签。4.根据权利要求1所述的方法,其特征在于,所述根据所述操作发布新的版本的数据集包括:响应于对所述数据集进行修改文件,创建第三目录并将修改后的文件上传到所述第三目录,并在所述第三目录中添加新增文件标签和删除文件标签。5.一种管理平台数据集的系统,其特征在于,包括:显示模块,配置用于将每个数据集中的文件采用多叉树结构来进行表示;查询模块,配置用于选择要操作的数据集,并查询数据库中所述数据集已存在的最大版本号;执行模块,配置用于对所述数据集进行操...

【专利技术属性】
技术研发人员:郑玉会
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1