一种深度学习框架训练的管理方法、系统、终端及介质技术方案

技术编号：36406739 阅读：72 留言：0更新日期：2023-01-18 10:15

本发明专利技术公开了一种深度学习框架训练的管理方法、系统、终端及介质，涉及深度学习框架管理领域，其技术方案要点是：获取多个深度学习框架所对应的源文件；解码所述源文件对应的配置文件，根据所述配置文件的解码结果得到配置文件的配置项；解码所述源文件对应的指令执行文件，根据所述指令执行文件的解码结果得到指令组合集；解码所述源文件对应的训练环境文件，根据所述训练环境文件的解码结果得到构建训练环境文件的程序依赖包；将深度学习框架的源文件的源码保存至代码数据库，并获取代码数据库中的源码的下载地址；将源文件的配置项、指令组合集、程序依赖包以及源码的下载地址同对应的深度学习框架绑定，并保存至数据共享库。库。库。

全部详细技术资料下载

【技术实现步骤摘要】
一种深度学习框架训练的管理方法、系统、终端及介质

[0001]本专利技术涉及一种深度学习框架管理领域，更具体地说，它涉及一种深度学习框架训练的管理方法、系统、终端及介质。

技术介绍

[0002]在深度学习模型训练
，可基于各类深度学习框架可以训练出相应的深度学习模型，虽然各类深度学习框架不同，但其基础流程是一致的，例如数据处理、参数设置、模型训练和模型导出等步骤。
[0003]相关技术中由于缺乏对各个深度学习框架的有效管理，导致了在深度学习模型训练的过程中的基础流程不规范，从而导致深度学习模型的训练效率较低，并且在适应不同训练场景的深度学习模型的训练存在重复操作过程。
[0004]因此，如何解决针对相关技术中对于多个深度学习框架的基础流程的管理是目前急需解决的问题。

技术实现思路

[0005]本专利技术为了解决相关技术中对于多个深度学习框架的基础流程的管理的问题，提供一种深度学习框架训练的管理方法、系统、终端及介质，本专利技术通过获取多个深度学习框架的源文件，以解码的方式解析多个深度学习...

【技术保护点】

【技术特征摘要】
1.一种深度学习框架训练的管理方法，其特征在于，所述方法包括：获取多个深度学习框架所对应的源文件；解码所述源文件对应的配置文件，根据所述配置文件的解码结果得到配置文件的配置项，其中所述配置文件包括数据配置文件和权重配置文件；解码所述源文件对应的指令执行文件，根据所述指令执行文件的解码结果得到指令组合集；解码所述源文件对应的训练环境文件，根据所述训练环境文件的解码结果得到构建训练环境文件的程序依赖包；将深度学习框架的源文件的源码保存至代码数据库，并获取代码数据库中的源码的下载地址；将源文件的配置项、指令组合集、程序依赖包以及源码的下载地址同对应的深度学习框架绑定，并保存至数据共享库。2.根据权利要求1所述的一种深度学习框架训练的管理方法，其特征在于，所述数据配置文件至少包括训练集、验证集、测试集和数据填充的格式中的任意一种、或任意两种、或任意三种或全部；所述权重配置文件包括权重文件、训练迭代次数、权重更新图像量和输入图像尺寸。3.根据权利要求1所述的一种深度学习框架训练的管理方法，其特征在于，所述指令组合集包括执行环境、前置执行命令、命令文件以及后置参数命令，其中根据所述执行环境生成前置执行命令，根据前置执行命令指定需要执行的命令文件，根据后置参数对前置执行命令或命令文件进行约束。4.根据权利要求1所述的一种深度学习框架训练的管理方法，其特征在于，根据所述训练环境文件的解码结果得到构建训练环境文件的程序依赖包，建立训练环境的镜像并保存至训练环境共享库中，并生成镜像的下载地址，其中训练环境共享库是基于训练环境的虚拟镜像库，虚拟镜像库可以导出对应的训练环境的镜像。5.根据权利要求1所述的一种深度学习框架训练的管理方法，其特征在于，所述方法还包括：在一台或多台终端上创建一个或多个深度学习模型的训练任务，并依据深度学习模型匹配对应的深度学习框架；根据所述训练任务加载训练数据，并根据所述训练数据配置训练参数；获取一台或多台终端的内存资源，基于已有训练任务所占用的内存资源大小、当前终端剩余的内存资源大小，以及创建的训练任务所需要的内存资源大小进行动态评估，根据评估结果将创建的训练任务分发至各终端，对分发有训练任务的终端同步此次训练任务所需的训练环境、训练数据以及此次训练任务匹配的深度学习框架的源代码，其中训练数据每次训练均需实时同步，而训练环境与深度学习框架的源代码，在训练任务未发生更...

【专利技术属性】
技术研发人员：何正阳，景志斌，陈果累，易云宇，
申请(专利权)人：四川金信石信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人