一种基于多线程的深度强化学习方法技术

技术编号：38229451 阅读：13 留言：0更新日期：2023-07-25 17:58

本发明专利技术提出了一种基于多线程的深度强化学习方法，属于机器学习技术领域。在深度强化学习算法中是通过智能体与环境不断进行交互获得训练数据，这个过程需要消耗大量时间才能获得足够的数据。本发明专利技术中通过多线程同步采样的方式加快数据样本采集速度，具体是将整体算法分为样本采集和网络训练两部分，其中样本采集部分是通过多个子线程中的智能体同步与环境进行交互产生数据，参数训练部分是利用子线程中采集到的数据在主线程中进行训练更新网络参数。子线程中只负责样本采集，主线程中只负责网络训练。这样通过多线程的方式提高样本采集效率，增强智能体在训练前期的探索能力，加快算法训练的速度，大大缩短算法训练所需的时间。时间。时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多线程的深度强化学习方法

[0001]本专利技术属于机器学习领域，涉及一种深度强化学习算法优化方法。
技术背景
[0002]深度强化学习算法是将深度学习与强化学习相结合的一种新型算法，强化学习是指通过智能体与环境进行交互并得到相应的回报值，根据回报值指导智能体调整选择动作的策略，最终实现智能体获得的累计回报值最大化。深度学习是通过深度神经网络提取原始数据的高维特征，具有非常强大的感知能力，在某些应用场景下甚至已经超过人类的感知水平。将强化学习与深度学习结合的深度强化学习算法，可以利用深度学习的感知能力学习环境的特征，并指导强化学习中的智能体与环境进行交互从而解决一些复杂的实际问题。深度强化学习已经在机器人控制、游戏博弈、交通以及金融等领域取得实际的应用。
[0003]深度强化学习算法可以分为基于值函数和基于策略梯度两类，基于值函数的方法是直接输出每个动作的价值，智能体选择执行其中价值最高的动作，这是通过值函数间接得到智能体的策略。基于策略梯度的方法是直接采用函数近似的方法建立策略网络，通过策略网络选择动作。其中基于价值函数的强化学习方法只能解决离散动作的问题，而基于策略梯度的强化学习算法则可以解决连续动作的问题。Schulman等人提出了近端策略优化(Proximal Policy Optimization，PPO)算法，实践证明PPO算法能够有效地应用于机械控制、策略游戏等领域，直到如今还被认为是最流行的深度强化学习算法之一。Cobbe等人又在PPO算法的基础上提出了阶段性策略梯度(Phasic P...

【技术保护点】

【技术特征摘要】
1.一种基于多线程的深度强化学习方法，其特征在于包括以下步骤：步骤一：根据实际问题定义深度强化学习的环境，其中包括环境状态空间、智能体动作空间、奖励函数、状态转移概率；步骤二：定义深度强化学习中策略网络和价值网络的结构，其中网络结构可以为全连接神经网络和卷积神经网络；步骤三：基于步骤一中定义的强化学习环境和步骤二中定义的神经网络创建一个主线程和多个子线程，主线程中只包括神经网络，子线程中包括神经网络和强化学习环境。主线程和子线程中的神经网络结构一致，主线程中实现神经网络的训练过程，子线程中只实现神经网络的推理过程；步骤四：多个子线程中的智能体同步与各自的环境进行交互收集数据并将数据存储到样本池中；步骤五：主线程利用子线程采集的数据进行训练，更新主线程中神...

【专利技术属性】
技术研发人员：阮爱武，范樱宝，王枭，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人