神经网络模型的训练方法、图像处理方法及装置制造方法及图纸

技术编号：33509925 阅读：59 留言：0更新日期：2022-05-19 01:18

本申请公开了人工智能领域中的一种神经网络模型的训练方法、图像处理方法及装置。该训练方法包括：至少一个第一加速器分别基于至少一个训练样本对神经网络模型进行训练，其中，在执行第i层的前向计算之前，从本地和其他加速器上获取第i层的不同参数以获取第i层的完整的模型参数。本申请的方法能够降低第一加速器的存储压力。速器的存储压力。速器的存储压力。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型的训练方法、图像处理方法及装置

[0001]本申请涉及人工智能领域，并且更具体地，涉及一种神经网络模型的训练方法、图像处理方法及装置。

技术介绍

[0002]人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。
[0003]在人工智能领域，通过对神经网络模型进行训练能够得到性能较优的目标神经网络模型以执行各种数据处理工作。训练设备上需要保存完整的模型参数以执行神经网络模型的训练过程，然而，单个设备的内存大小有限，深度模型中的模型参数较多，给设备带来了较大的存储压力，内存较小的设备甚至无法保存完整的模型参数，难以执行神经网络模型的训练过程。
[0004]因此，如何降低神经网络模型的运算设备的存储压力，成为一个亟需解决的技术问题。

技术实现思路

[0005]本申请提供一种神经网络模型的训练方法、图像处理方法及装置，能够降低神经网络模型的运算设备的存储压力。
[0006]第一方面，提供了一种神经网络模型的训练方法，该方...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型的训练方法，其特征在于，包括：至少一个第一加速器分别获取至少一个训练样本；所述至少一个第一加速器分别对所述至少一个训练样本执行神经网络模型的前向计算，得到前向计算的结果，其中，所述至少一个第一加速器在执行所述神经网络模型中的第i层的前向计算之前，从本地以及其他加速器获取所述第i层的不同参数以得到所述第i层的完整的模型参数，i为正整数；所述至少一个第一加速器分别利用所述前向计算的结果进行反向计算，得到所述神经网络模型的第一参数梯度；所述至少一个第一加速器分别基于所述神经网络模型的第一参数梯度更新所述神经网络模型的参数。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：所述至少一个第一加速器在执行所述神经网络模型中的第i层的前向计算之后，释放从所述其他加速器获取的所述第i层的参数。3.根据权利要求1或2所述的方法，其特征在于，所述至少一个第一加速器在执行所述神经网络模型中的第j层的反向计算之前，从本地以及其他第一加速器获取所述第j层的不同参数以得到所述第j层的完整的模型参数，j为正整数。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：所述至少一个第一加速器在执行所述神经网络模型中的第j层的反向计算之后，释放从所述其他加速器获取的所述第j层的参数。5.根据权利要求3或4所述的方法，其特征在于，所述至少一个第一加速器在执行所述神经网络模型中的第j层之后的任一层或多层的反向计算的时段内，从本地以及其他加速器获取所述第j层的不同参数以得到所述第j层的完整的模型参数。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述至少一个第一加速器在执行所述神经网络模型中的第i层之前的任一层或多层的前向计算的时段内，从本地以及其他加速器获取所述第i层的不同参数以得到所述第i层的完整的模型参数。7.根据权利要求1至6中任一项所述的方法，其特征在于，所述至少一个第一加速器位于第一服务器中。8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：所述至少一个第一加速器分别将所述第一参数梯度发送至其他加速器。9.根据权利要求8所述的方法，其特征在于，所述至少一个第一加速器在执行所述神经网络模型中的第k层之前的任一层或多层的反向计算的时段内，向其他加速器发送所述第一参数梯度中的第k层的参数梯度，k为正整数。10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：所述至少一个第一加速器分别接收由其他加速器发送的所述神经网络模型的第二参数梯度；以及所述至少一个第一加速器分别基于所述神经网络模型的第一参数梯度更新所述神经网络模型的参数，包括：所述至少一个第一加速器分别基于所述神经网络模型的第一参数梯度和所述神经网络模型的第二参数梯度更新所述神经网络模型的参数。
11.根据权利要求10所述的方法，其特征在于，所述至少一个第一加速器包括两个或两个以上第一加速器，以及所述至少一个第一加速器分别接收由其他加速器发送的所述神经网络模型的第二参数梯度，包括：所述至少一个第一加速器同时分别接收由其他服务器中的加速器发送的所述神经网络模型的第二参数梯度。12.一种图像处理方法，其特征在于，包括：第二加速器获取待处理图像；所述第二加速器对所述待处理图像执行目标神经网络模型的前向计算，得到待处理图像的处理结果，其中，所述第二加速器在执行所述目标神经网络模型中的第p层的前向计算之前，从本地以及其他加速器获取所述第p层的不同参数以得到所述第p层的完整的模型参数，p为正整数。13.根据权利要求12所述的方法，其特征在于，所述第二加速器在执行所述目标神经网络模型中的第p层的前向计算之后，释放从所述其他加速器获取的所述第p层的参数。14.根据权利要求12或13所述的方法，其特征在于，所述第二加速器在执行所述目标神经网络模型中的第p层之前的任一层或多层的前向计算的时段内，从本地以及其他加速器获取所述第p层的不同参数以得到所述第p层的完整的模型参数。15.根据权利要求12至14中任一项所述的方法，其特征在于，所述目标神经网络模型的参数是通过至少一个第一加速器分别基于神经网络模型的第一参数梯度更新所述神经网络模型的参数得到的，所述神经网络模型的第一参数梯度是通过所述至少一个第一加速器利用前向计算的结果进行反向计算得到，所述前向计算的结果是通过所述至少一个第一加速器分别对所述至少一个训练样本执行神经网络模型的前向计算得到的，所述神经网络模型中的第i层的完整的模型参数是从本地以及其他加速器获取所述第i层的不同参数得到的。16.根据权利要求15所述的方法，其特征在于，所述至少一个第一加速器执行所述神经网络模型中的第j层的反向计算时，所述神经网络模型中的第j层的完整的模型参数是从本地以及其他加速器获取所述第j层的不同参数得到的。17.根据权利要求16所述的方法，其特征在于，所述第j层的完整的模型参数是在所述至少一个第一加速器执行所述神经网络模型中的第j层之后的任一层或多层的反向计算的时段内获得的。18.根据权利要求15至17中任一项所述的方法，其特征在于，所述至少一个第一加速器位于第一服务器中。19.根据权利要求15至18中任一项所述的方法，其特征在于，所述目标神经网络模型的参数是通过至少一个第一加速器分别基于神经网络模型的第一参数梯度更新所述神经网络模型的参数得到的，包括：所述目标神经网络模型的参数是通过所述至少一个第一加速器分别基于所述神经网络模型的第一参数梯度和所述神经网络模型的第二参数梯度更新所述神经网络模型的参数得到的，其中，所述神经网络模型的第二参数梯度包括所述至少一个第一加速器接收的其他加速器发送的参数梯度。
20.根据权利要求15至19中任一项所述的方法，其特征在于，所述至少一个第一加速器包括两个或两个以上第一加速器，所述神经网络模型的第二参数梯度包括所述至少一个第一加速器同时接收的由其他服务器中的其他加速器发送的参数梯度。21.一种神经网络模型的训练装置，其特征在于，包括：获取单元，用于获取至少一个训练样本；处理单元，用于：对所述至少一个训练样本执行神经网...

【专利技术属性】
技术研发人员：陈仙萍，马力，秦勇，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人