具有减少的存储器需求的双动量梯度优化制造技术

技术编号:35733121 阅读:27 留言:0更新日期:2022-11-26 18:34
描述了与具有减少的存储器需求的双动量梯度优化相关的系统和方法。描述了一种系统中的示例方法,该系统包括梯度优化器和存储器,该存储器被配置为存储与包括L层的神经网络模型相关联的动量值。该方法包括从存储器取回对应于神经网络模型的层的具有所选择的存储格式的第一组动量值和第二组动量值。该方法还包括:将第一组动量值转换为具有与梯度优化器相关联的训练格式的第三组动量值,以及将第二组动量值转换为具有与梯度优化器相关联的训练格式的第四组动量值。该方法还包括使用第三组动量值和第四组动量值来执行梯度优化。动量值和第四组动量值来执行梯度优化。动量值和第四组动量值来执行梯度优化。

【技术实现步骤摘要】
【国外来华专利技术】具有减少的存储器需求的双动量梯度优化

技术介绍

[0001]经训练的模型,包括神经网络模型,用于执行复杂的任务,诸如阅读理解、语言翻译、图像识别或语音识别。已经部署了机器学习服务来执行这样的复杂任务,机器学习服务诸如是基于自然语言处理(NLP)、递归神经网络(RNN)、卷积神经网络(CNN)、长短期记忆(LSTM)神经网络或门控递归单元(GRU)的机器学习服务。虽然这些类型的模型已经使用各种架构和方法被训练,但需要继续改进底层架构和方法来执行训练。

技术实现思路

[0002]在一个示例中,本公开涉及一种系统中的方法,该系统包括梯度优化器和存储器,该存储器被配置为存储与包括L层的神经网络模型相关联的动量值,其中L是大于一的整数。该方法可以包括:从存储器取回第一组动量值,该第一组动量值对应于神经网络模型的层,该第一组动量值具有所选择的存储格式,以及从存储器取回第二组动量值,该第二组动量值对应于神经网络模型的层,该第二组动量值具有所选择的存储格式。该方法还可以包括:将具有所选择的存储格式的第一组动量值转换为具有与梯度优化器相关联的训练格式的第三组动量值,以及将本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统中的方法,所述系统包括梯度优化器和存储器,所述存储器被配置为存储与包括L层的神经网络模型相关联的动量值,其中L是大于一的整数,所述方法包括:从所述存储器取回第一组动量值,所述第一组动量值对应于所述神经网络模型的层,所述第一组动量值具有所选择的存储格式,以及从所述存储器取回第二组动量值,所述第二组动量值对应于所述神经网络模型的所述层,所述第二组动量值具有所选择的所述存储格式;将具有所选择的所述存储格式的所述第一组动量值转换为具有与所述梯度优化器相关联的训练格式的第三组动量值,以及将具有所选择的所述存储格式的所述第二组动量值转换为具有与所述梯度优化器相关联的训练格式的第四组动量值;以及使用所述梯度优化器,使用所述第三组动量值和所述第四组动量值来执行梯度优化。2.根据权利要求1所述的方法,其中所选择的所述存储格式包括简化的单精度格式。3.根据权利要求1所述的方法,其中所述训练格式包括单精度格式或双精度格式。4.根据权利要求1所述的方法,其中将具有所选择的所述存储格式的所述第一组动量值转换为具有所述训练格式的所述第三组动量值包括填充额外的零位以形成单精度格式动量值。5.根据权利要求1所述的方法,还包括:生成用于梯度优化的下一次迭代的第五组动量值和第六组动量值,以及在存储所述第五组动量值和所述第六组动量值中的每一组动量值之前,通过仅存储与相应动量值中的每个动量值相关联的符号位和七个最高有效位,将所述第五组动量值和所述第六组动量值中的每一组动量值转换为所述存储格式。6.根据权利要求1所述的方法,其中执行梯度优化包括实施自适应矩估计算法。7.根据权利要求6所述的方法,其中所述梯度优化器是使用现场可编程门阵列(FPGA)实现的,并且其中所述梯度优化器被配置为以突发模式操作,使得连续突发的周期导致梯度流过所述梯度优化器。8.一种包括梯度优化器的系统,所述系统包括:存储器,被配置为存储与包括L层的神经网络模型相关联的动量值,其中L是大于一的整数;并且所述系统被配置为:从所述存储器取回第一组动量值,所述第一组动量值对应于所述神经网络模型的层,所述第一组动量值具有所选择的存储格式,以及从所述存储器取回第二组动量值,所述第二组动量值对应于所述神经网络模型的所述层,所述第二组动量值具有所选择的所述存储格式,将具有所选择的所述存储格式的所述第一组动量值转换为具有与所述梯度优化器相关联的训练格式的第三组动量值,以及将具有所选择的所述...

【专利技术属性】
技术研发人员:奚锦文B
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1