一种共享AI模型训练平台设计方法及装置制造方法及图纸

技术编号:37473329 阅读:10 留言:0更新日期:2023-05-06 09:57
本发明专利技术涉及人工智能领域,具体提供了一种共享AI模型训练平台设计方法,具有如下步骤:S1、终端用户在云端创建用户并声明所在组织,其余用户加入组织即可,第一个创建组织的用户默认为管理员,用户创建完成后生成节点接入指令包含云端服务地址及注册校验密钥供边缘节点注册时使用;S2、具备GPU算力资源的边缘运行生成的注册指令成为组织下的子节点供组织所有用户使用,注册完成后云端可查看节点算力使用情况及所涉及到占用进程;S3、用户上传已标注完成的标准化格式数据,数据集同一组织内所有用户均可查看并使用,不同组织的无法查看及使用。与现有技术相比,本发明专利技术使平台训练资源共享使用同时彼此数据又有一定限度隔离,保证平台运行使用的通顺。平台运行使用的通顺。平台运行使用的通顺。

【技术实现步骤摘要】
一种共享AI模型训练平台设计方法及装置


[0001]本专利技术涉及人工智能领域,具体提供一种共享AI模型训练平台设计方法及装置。

技术介绍

[0002]机器学习、深度学习领域相关研究人员需不断进行模型训练以期望获得一个效果较好的模型用于实际生产,而模型训练是一个复杂混乱的过程,如何营造一个有序的共享训练平台是本领域技术人员亟待解决的技术问题。

技术实现思路

[0003]本专利技术是针对上述现有技术的不足,提供一种实用性强的共享AI模型训练平台设计方法。
[0004]本专利技术进一步的技术任务是提供一种设计合理,安全适用的共享AI模型训练平台设计装置。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种共享AI模型训练平台设计方法,具有如下步骤:
[0007]S1、终端用户在云端创建用户并声明所在组织,其余用户加入组织即可,第一个创建组织的用户默认为管理员,用户创建完成后生成节点接入指令包含云端服务地址及注册校验密钥供边缘节点注册时使用;
[0008]S2、具备GPU算力资源的边缘运行生成的注册指令成为组织下的子节点供组织所有用户使用,注册完成后云端可查看节点算力使用情况及所涉及到占用进程;
[0009]S3、用户上传已标注完成的标准化格式数据,数据集同一组织内所有用户均可查看并使用,不同组织的无法查看及使用。
[0010]进一步的,在步骤S3中,创建训练任务选择所使用的数据集、查看节点算力并选择空闲节点、设置各项参数即可,任务创建完成后既可执行,训练任务完成后自动将结果上传至云端;
[0011]任务执行时云端服务将数据及参数设置下发至边缘节点中进行训练,训练过程所有结果数据实时回传至云端管理中心。
[0012]进一步的,所述云端的管理中心包括用户管理、数据中心、任务管理、日志监控、节点管理、资源监控和模型管理;
[0013]所述终端需要在用户管理中注册;
[0014]所述数据中心存储所述终端用户上传的标准化数据集;
[0015]所述任务管理管理终端用户所创建的模型训练任务;
[0016]所述日志监控记录模型训练过程中各重要指标参数变化过程及该任务训练过程中对于算力资源的消耗情况;
[0017]所述节点管理管理同一组织内具备算力资源的子节点;
[0018]所述资源监控监控子节点中算力的使用情况;
[0019]所述模型管理保存训练结果。
[0020]进一步的,所述用户管理中,终端用户注册时声明自身所在组织,每一个组织具有独立的资源空间,组织间所有计算资源、数据是绝对隔离的,同一组织内相关用户看到彼此数据和同组织内所有计算资源共享。
[0021]进一步的,在数据中心中,所述标准化数据集内为已经标注完成的图片或音频文件数据,数据存储外接公有云对象存储或云盘存储。
[0022]进一步的,任务管理中,创建的模型训练任务包含开始、暂停、结束、查看以实时追踪训练全过程,完成数据集选择、超参设置和硬件算力资源选择。
[0023]进一步的,节点管理管理同一组织内具备算力资源的子节点,包含生成子节点注册指令和监控子节点状态。
[0024]进一步的,资源监控监控子节点中算力使用情况,包含GPU使用率、显存占用率、CPU使用率、内存占用率及各进程占用资源情况,掌控算力使用情况安排训练任务。
[0025]进一步的,模型管理保存训练结果,离线下载模型结果或者直接发布至云端服务商店供其它用户使用。
[0026]一种共享AI模型训练平台设计装置,其特征在于,包括:至少一个存储器和至少一个处理器;
[0027]所述至少一个存储器,用于存储机器可读程序;
[0028]所述至少一个处理器,用于调用所述机器可读程序,执行一种共享AI模型训练平台设计方法。
[0029]本专利技术的一种共享AI模型训练平台设计方法及装置和现有技术相比,具有以下突出的有益效果:
[0030]本专利技术使相关科研人员平台训练资源共享使用同时彼此数据又有一定限度隔离,保证平台运行使用的通顺。
附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]附图1是一种共享AI模型训练平台设计方法的框架示意图。
具体实施方式
[0033]为了使本
的人员更好的理解本专利技术的方案,下面结合具体的实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本专利技术保护的范围。
[0034]下面给出一个最佳实施例:
[0035]如图1所示,本实施例中的一种共享AI模型训练平台设计方法,具有如下步骤:
[0036]S1、终端用户在云端创建用户并声明所在组织,其余用户加入组织即可,第一个创
建组织的用户默认为管理员,用户创建完成后生成节点接入指令包含云端服务地址及注册校验密钥供边缘节点注册时使用;
[0037]S2、具备GPU算力资源的边缘运行生成的注册指令成为组织下的子节点供组织所有用户使用,注册完成后云端可查看节点算力使用情况及所涉及到占用进程;
[0038]S3、用户上传已标注完成的标准化格式数据,数据集同一组织内所有用户均可查看并使用,不同组织的无法查看及使用,创建训练任务选择所使用的数据集、查看节点算力并选择空闲节点、设置各项参数即可,任务创建完成后既可执行,训练任务完成后自动将结果上传至云端。
[0039]任务执行时云端服务将数据及参数设置下发至边缘节点中进行训练,训练过程所有结果数据实时回传至云端管理中心。
[0040]进一步的,云端的管理中心包括用户管理、数据中心、任务管理、日志监控、节点管理、资源监控和模型管理。
[0041]终端用户注册时需声明自身所在组织,每一个组织具有独立的资源空间,组织间所有计算资源、数据是绝对隔离的,同一组织内相关用户可以看到彼此上传的数据集、训练任务、训练结果等,同组织内所有计算资源共享。
[0042]数据中心用于存储终端用户上传的标准化练数据集,通常是已经标注完成的图片或者音频文件等数据,数据存储可外接公有云对象存储或云盘存储等介质。
[0043]任务管理用于管理终端用户所创建的模型训练任务,包含开始、暂停、结束、查看等子模块以实时追踪训练全过程,完成数据集选择、超参设置、硬件算力资源选择等。
[0044]日志监控记录模型训练过程中各重要指标参数变化过程及该任务训练过程中对于算力资源的消耗情况;
[0045]节点管理用于管理同一组织内具备算力资源的子节点,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种共享AI模型训练平台设计方法,其特征在于,具有如下步骤:S1、终端用户在云端创建用户并声明所在组织,其余用户加入组织即可,第一个创建组织的用户默认为管理员,用户创建完成后生成节点接入指令包含云端服务地址及注册校验密钥供边缘节点注册时使用;S2、具备GPU算力资源的边缘运行生成的注册指令成为组织下的子节点供组织所有用户使用,注册完成后云端可查看节点算力使用情况及所涉及到占用进程;S3、用户上传已标注完成的标准化格式数据,数据集同一组织内所有用户均可查看并使用,不同组织的无法查看及使用。2.根据权利要求1所述的一种共享AI模型训练平台设计方法,其特征在于,在步骤S3中,创建训练任务选择所使用的数据集、查看节点算力并选择空闲节点、设置各项参数即可,任务创建完成后既可执行,训练任务完成后自动将结果上传至云端;任务执行时云端服务将数据及参数设置下发至边缘节点中进行训练,训练过程所有结果数据实时回传至云端管理中心。3.根据权利要求1或2所述的一种共享AI模型训练平台设计方法,其特征在于,所述云端的管理中心包括用户管理、数据中心、任务管理、日志监控、节点管理、资源监控和模型管理;所述终端需要在用户管理中注册;所述数据中心存储所述终端用户上传的标准化数据集;所述任务管理管理终端用户所创建的模型训练任务;所述日志监控记录模型训练过程中各重要指标参数变化过程及该任务训练过程中对于算力资源的消耗情况;所述节点管理管理同一组织内具备算力资源的子节点;所述资源监控监控子节点中算力的使用情况;所述模型管理保存训练结果。4.根据权利要求3所述的...

【专利技术属性】
技术研发人员:宋虎
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1