对神经网络进行训练的方法及更新神经网络参数的优化器技术

技术编号：37859523 阅读：12 留言：0更新日期：2023-06-15 20:49

公开了一种对神经网络进行训练的方法、更新神经网络参数的优化器、电子设备和计算机可读存储介质。本公开的各个实施例结合一阶动量信息和二阶动量信息的优势，在训练神经网络的过程中充分地利用了损失函数在各个时间步的导数信息和曲率信息，并在获取一阶动量信息之后释放了用于存储导数信息的内存，能够在提高神经网络的训练速度的同时降低内存的开销。神经网络的训练速度的同时降低内存的开销。神经网络的训练速度的同时降低内存的开销。

全部详细技术资料下载

【技术实现步骤摘要】
对神经网络进行训练的方法及更新神经网络参数的优化器

[0001]本公开涉及人工智能服务领域，更具体地涉及一种对神经网络进行训练的方法、更新神经网络参数的优化器、电子设备和计算机可读存储介质。

技术介绍

[0002]深度学习(Deep Learni ng)是人工智能领域的一个重要分支，它通过多层神经网络模型，对复杂的数据进行建模和预测。随着深度学习应用的不断扩展，如何高效地训练深度神经网络模型，成为了深度学习领域中的一个热门研究方向。
[0003]目前工业界和学术界已经提出了各种优化器来更新神经网络中的参数以实现对神经网络进行训练。在训练期间，各种优化器通过计算损失函数的梯度来调整神经网络中的模型参数，以使得损失函数能够更快地收敛至极值，从而缩短神经网络训练所需的时间。
[0004]这些优化器可以应用于多个领域。例如，在计算机视觉领域，优化器可以用于图片分类、图像目标检测、图片生成等任务。在自然语言处理领域，优化器可以用于语言模型、文本翻译、文字生成、语音识别等任务。在推荐系统领域，优化器可以用于商品推荐、广告推荐等任务。此外，这个优化器也可以应用于人工智能科学计算领域，例如求解和模拟描述物理现象的偏微分方程(PDEs)。在强化学习领域，它可以用于下棋、遵循人类指令和价值观的聊天模型等任务。
[0005]然而，对于超大模型的神经网络而言，在训练过程中使用优化器需要较大的内存以及计算量。因此，仍需要对利用优化器来训练神经网络的技术进行进一步改进。

技术实现思路

[0006]本公开实...

【技术保护点】

【技术特征摘要】
1.一种对神经网络进行训练的方法，包括：在多个时间步中，利用损失函数对所述神经网络进行迭代地训练，其中，对于所述多个时间步中的每个时间步，基于所述神经网络在所述时间步的参数的值，确定所述时间步对应的一阶动量信息，所述一阶动量信息融合有所述损失函数在所述时间步的导数信息；基于所述时间步对应的一阶动量信息，确定所述时间步对应的二阶动量信息，所述二阶动量信息融合有所述损失函数在所述时间步的曲率信息；以及基于所述一阶动量信息和所述二阶动量信息，对所述神经网络的参数进行更新，以得到用于下一时间步的神经网络的参数。2.如权利要求1所述的方法，其中，在所述确定所述时间步对应的一阶动量信息之后，释放用于存储所述损失函数在所述时间步的导数信息的内存。3.如权利要求1所述的方法，其中，所述损失函数是所述神经网络对目标标签的预测值和所述目标标签的真实值的函数。4.如权利要求1所述的方法，其中，所述基于所述神经网络在所述时间步的参数的值，确定所述时间步对应的一阶动量信息包括：获取所述神经网络在前一时间步对应的一阶动量信息以及所述神经网络在所述时间步的参数的值；以及基于所述损失函数在所述时间步的导数信息和所述神经网络在前一时间步对应的一阶动量信息的值，确定所述时间步对应的一阶动量信息。5.如权利要求4所述的方法，其中，所述基于所述损失函数在当前时间步的导数信息和所述神经网络在前一时间步对应的一阶动量信息，确定当前时间步对应的一阶动量信息包括：获取预配置的一阶矩系数，并基于所述一阶矩系数，计算所述损失函数在当前时间步的导数信息和所述神经网络在前一时间步对应的一阶动量信息的值的加权和，并将所述加权和确定为所述时间步对应的一阶动量信息。6.如权利要求1所述的方法，其中，所述基于所述时间步对应的一阶动量信息，确定所述时间步对应的二阶动量信息包括：生成随机向量，所述随机向量中的元素取值有50％概率为正一且有50％的概率为负一，并且所述随机向量的元素数量与神经网络的参数数量一致；以及基于所述随机向量、所述神经网络在所述时间步的参数的值、以及所述时间步对应的一阶动量信息，利用求导操作，确定所述时间步对应的二阶动量信息，所述二阶动量信息融合有所述损失函数在所述时间步的曲率信息。7.如权利要求6所述的方法，其中，所述利用求导操作，确定所述时间步对应的二阶动量信息包括：利用所述随机向量乘以所述一阶动量信息，以获取海森矩阵的对角线上的元素组成的向量；对所述时间步对应的海森矩阵的对角线上的元素组成的向量进行非线性变换，以获...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：上海壁仞智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人