一种神经网络的训练方法、装置及设备制造方法及图纸

技术编号：33503778 阅读：54 留言：0更新日期：2022-05-19 01:13

本发明专利技术公开了一种神经网络的训练方法、装置及设备，其中，所述方法包括：构建至少一个计算单元；将待训练神经网络分别放置到所述至少一个计算单元内，每个计算单元执行参数生成操作，分别得到每个计算单元生成的梯度数据；将所述每个计算单元得出的梯度数据进行平均化，得到平均化后的梯度数据；根据所述平均化后的梯度数据更新所述待训练神经网络；任一所述计算单元的参数生成操作包括：运行所述计算单元中的待训练神经网络，生成轨迹数据；根据所述轨迹数据，生成梯度数据。通过上述方式，本发明专利技术提高了神经网络的训练效率。提高了神经网络的训练效率。提高了神经网络的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络的训练方法、装置及设备

[0001]本专利技术涉及强化学习
，具体涉及一种神经网络的训练方法、装置及设备。

技术介绍

[0002]在超大动作空间和状态空间下，深度强化学习训练时间较长，仅一次实验就需要耗费大量训练时间，而生成有效的策略模型往往需要进行大量实验，这使得整个生产策略模型流程效率低下。
[0003]深度强化学习训练过程耗时较长的一个核心原因在于强化学习算法的采样效率偏低，需要基于大量的环境交互轨迹数据进行学习才能收敛到预期效果，得到较好策略模型。在相同的强化学习算法和超参约束下，单位时间轨迹数据吞吐量决定了训练效率。
[0004]而目前的强化学习算法架构，例如在专利文件（CN110705705A，CN108021395A）中，在提高吞吐率上有以下问题：第一，随着将深度强化学习应用到越来越复杂的决策问题中，复杂问题的模拟环境往往具有超大的动作空间和状态空间，这会导致网络中仍然会传输大量的观测和动作数据，大大降低了轨迹数据的收集效率。
[0005]第二，当收集的轨迹数据量很大时，单个GPU会成为采样轨迹数据进行学习的瓶颈。最后，针对不同算法的轨迹数据，并没有通用的可配置的高性能轨迹存储结构。

技术实现思路

[0006]为解决上述问题，提出了本专利技术实施例的神经网络的训练方法、装置及设备。
[0007]根据本专利技术实施例的一个方面，提供了一种神经网络的训练方法，包括：构建至少一个计算单元；将待训练神经网络分别放置到所述至少一个计算单元内，每个计...

【技术保护点】

【技术特征摘要】
1.一种神经网络的训练方法，其特征在于，所述方法包括：构建至少一个计算单元；将待训练神经网络分别放置到所述至少一个计算单元内，每个计算单元执行参数生成操作，分别得到每个计算单元生成的梯度数据；将所述每个计算单元得出的梯度数据进行平均化，得到平均化后的梯度数据；根据所述平均化后的梯度数据更新所述待训练神经网络；任一所述计算单元的参数生成操作包括：运行所述计算单元中的待训练神经网络，生成轨迹数据；根据所述轨迹数据，生成梯度数据。2.根据权利要求1所述的神经网络的训练方法，其特征在于，所述每个计算单元均包括：至少一个CPU、至少一个独立内存以及一个GPU。3.根据权利要求1所述的神经网络的训练方法，其特征在于，在构建至少一个计算单元后，还包括：预先配置轨迹数据的维度。4.根据权利要求1所述的神经网络的训练方法，其特征在于，运行所述计算单元中的待训练神经网络，生成轨迹数据，包括：将所述待训练神经网络与初始环境进行交互，得到第一动作分布以及第一环境；对所述第一动作分布进行动作采样，得到第一动作；判断得到所述第一动作后是否满足预设停止交互条件；若满足预设停止交互条件，将所述第一动作相关的运行数据作为轨迹数据，所述第一动作相关的运行数据包括以下至少一个：所述初始环境、所述第一动作分布、所述第一环境、所述第一动作；若不满足预设停止交互条件，将所述第一动作传递给所述第一环境，根据第一动作以及第一环境重新执行将所述待训练神经网络与初始环境进行交互的步骤。5.根据权利要求2所述的神经网络的训练方法，其特征在于，在运行所述计算单元中的待训练神经网络，生成轨迹数据之后，还包括：通过所述至少一个独立内存，将轨迹数据进行储存。6.根据权利要求1所述的神经网络的训练方法，其特征在于，根据所述轨迹数据，生成梯度数据，包括：通过神经网络的...

【专利技术属性】
技术研发人员：徐波，唐伟，徐博，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人