一种通用的人工智能模型训练方法及系统技术方案

技术编号:30710633 阅读:115 留言:0更新日期:2021-11-10 11:01
本发明专利技术公开了一种通用的人工智能模型训练方法及系统,涉及人工智能领域,该方法包括将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像;根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点;在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。本发明专利技术能够提升人工智能模型训练效率,并有效降低了训练成本。练成本。练成本。

【技术实现步骤摘要】
一种通用的人工智能模型训练方法及系统


[0001]本专利技术涉及人工智能领域,具体涉及一种通用的人工智能模型训练方法及系统。

技术介绍

[0002]人工智能,特别是深度学习人工智能,其发展的主要瓶颈之一体现在计算能力上,例如:在一个NVIDIA公司的Tesla P40 GPU(Graphics Processing Unit,图形处理器)上用ResNet50网络去训练ImageNet数据库需要14天左右的时间;用一个串行程序在单核CPU(Central Processing Unit,中央处理器)上训练则可能需要几十年才能完成。
[0003]同时,受限于人工智能的发展现况,当前的人工智能模型均是为了解决某一特定领域问题而研究得出的模型,例如Google公司开发的TensorFlow系统、分布式(深度)机器学习社区开发的MXNet深度学习库、微软公司的CNTK深度学习工具包等,由于缺少通用的人工智能模型训练方法,以上模型在训练时,需要分别制定训练场景,极大地降低了人工智能模型的训练效率。
[0004]对于一个新的问题,深度学习是一个反复调整模型参数的过程,实验过程中,研究人员需要不断地调整模型,然后再进行实验,每次实验均需等待较长时间,才能得到最终结果,因此,在短时间之内完成人工智能模型的训练对科技的进步具有重大意义。为了提升人工智能模型的训练速度,一般都会采用大量的计算单元进行并行计算,大量计算单元的并行计算环境搭建较为复杂,同时由于训练用计算框架的不同,也加剧了大规模并行模型训练环境搭建复杂度,增加了训练成本。

技术实现思路

[0005]针对现有技术中存在的缺陷,本专利技术的目的在于提供一种通用的人工智能模型训练方法及系统,能够提升人工智能模型训练效率,并有效降低了训练成本。
[0006]为达到以上目的,本专利技术提供一种通用的人工智能模型训练方法包括以下步骤:
[0007]将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;
[0008]根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;
[0009]根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;
[0010]在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。
[0011]在上述技术方案的基础上,所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。
[0012]在上述技术方案的基础上,所述根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体步骤包括:
[0013]应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向所述终端提供人工智能模型训练服务;
[0014]应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;
[0015]根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
[0016]在上述技术方案的基础上,所述根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体步骤包括,
[0017]判断源代码中是否指定计算节点数量:
[0018]若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;
[0019]若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。
[0020]在上述技术方案的基础上,所述在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为:
[0021]当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,完成待训练人工智能模型的训练;
[0022]当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。
[0023]本专利技术提供一种通用的人工智能模型训练系统,包括:
[0024]采集编辑模块,其用于将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;
[0025]第一匹配模块,其用于根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;
[0026]第二匹配模块,其用于根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;
[0027]训练模块,其用于在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。
[0028]在上述技术方案的基础上,所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。
[0029]在上述技术方案的基础上,所述根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体过程包括:
[0030]应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向所述终端提供人工智能模型训练服务;
[0031]应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;
[0032]根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。
[0033]在上述技术方案的基础上,所述根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体过程包括,
[0034]判断源代码中是否指定计算节点数量:
[0035]若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用的人工智能模型训练方法,其特征在于,包括以下步骤:将待训练人工智能模型的源代码和训练所需的样本数据存储至模型代码仓库中;根据源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,所述镜像仓库用于存储人工智能模型训练时所需的训练镜像,所述训练镜像用于指定人工智能模型训练时所需的计算节点;根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,所述计算资源集群用于向人工智能模型的训练过程提供训练计算资源;在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练。2.如权利要求1所述的一种通用的人工智能模型训练方法,其特征在于:所述梯度特征指源代码所对应待训练人工智能模型的执行环境版本。3.如权利要求2所述的一种通用的人工智能模型训练方法,其特征在于,所述根据所编辑的源代码的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像,具体步骤包括:应用服务集群接收人工智能模型训练请求,所述应用服务集群为由多个服务器组成的服务器集群,所述应用服务集群以集群方式向所述终端提供人工智能模型训练服务;应用服务集群对人工智能模型训练请求中的源代码进行分析,提取出源代码的梯度特征;根据提取出的梯度特征,从镜像仓库中匹配出对应于待训练人工智能模型的训练镜像。4.如权利要求3所述的一种通用的人工智能模型训练方法,其特征在于,所述根据匹配出的训练镜像,从计算资源集群中匹配出对应该训练镜像的计算节点,具体步骤包括,判断源代码中是否指定计算节点数量:若是,则判断计算资源集群中是否存在位于同一服务器上的空闲计算节点,若存在,则从位于同一服务器上的空闲计算节点中匹配出对应训练镜像的计算节点,若不存在,则在计算资源集群中新建对应训练镜像的计算节点,且新建的计算节点位于同一服务器上;若否,则从计算资源集群中的空闲计算节点中选择出默认数量的计算节点,或在计算资源集群中新建默认数量的计算节点,且新建的计算节点位于同一服务器上。5.如权利要求4所述的一种通用的人工智能模型训练方法,其特征在于,所述在匹配出的计算节点上启动待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的特征,动态调整所需的计算节点,完成待训练人工智能模型的训练,具体为:当待训练人工智能模型指定计算节点数量时,启动所有选择的或新建的默认数量的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,完成待训练人工智能模型的训练;当待训练人工智能模型未指定计算节点数量时,启动所有匹配出的或新建的计算节点,计算节点获取模型代码仓库中存储的源代码和样本数据,进行待训练人工智能模型的训练,并在训练过程中根据待训练人工智能模型的复杂度,增加或减少训练所需的计算节点数量,完成待训练人工智能模型的训练。6.一种通用的人工智能模型训练系统,其特征在于,包括...

【专利技术属性】
技术研发人员:周浩
申请(专利权)人:烽火通信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1