The invention provides an acceleration method for deep reinforcement learning algorithm training under CPU+FPGA platform. This acceleration method can be applied to various deep reinforcement learning algorithms to accelerate the implementation of experience pool and target network methods. The method includes the following steps: assigning evaluation network parameters, target network parameters and experience pool in fixed address memory, initializing them through CPU, running action network, evaluation network and target network in FPGA, and running two processes simultaneously. The first process carries out data. Collection, through interaction between action network and reinforcement learning environment running on CPU, the collected data are stored in the experience pool; process 2 is trained by neural network, CPU extracts data from the experience pool, generates labels through target network, trains and evaluates network parameters, and updates target network parameters according to training times. The invention utilizes the advantages of low power consumption and reconfigurable of the FPGA to accelerate and optimize the training of the deep reinforcement learning algorithm.
【技术实现步骤摘要】
一种深度强化学习加速训练的方法
本专利技术属于计算机领域,特别涉及一种基于CPU+FPGA平台的深度强化学习训练加速方法。
技术介绍
深度强化学习算法,是一种将深度学习的感知能力和强化学习的决策能力相结合的算法,通过端对端的学习方式实现从原始输入到输出的控制。该算法在工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域有广泛应用。文献(MnihV,KavukcuogluK,SilverD,etal.PlayingAtariwithdeepreinforcementlearning//ProceedingsofWorkshopsatthe26thNeuralInformationProcessingSystems2013.LakeTahoe,USA,2013:201-220)首次提出深度强化学习(Deepreinforcementlearning)的概念,并专利技术了首个深度强化学习算法DQN。随着使用深度强化学习技术的AlphaGo在围棋领域大杀四方,越来越多的研究被投入到该领域中,许多优异的深度强化学习算法被陆续提出,算法的复杂度也与日俱增,需要强大的计算能力的支持。在DQN算法中,Q网络为深度神经网络用于评价状态S下的动作Q值,Q值即评价该动作的值,通过ε-贪婪策略与环境交互产生数据放入经验池中,从中随机抽取数据进行训练,可以打破数据间的关联;设置目标网络计算TD值来训练评价网络,提升了算法的稳定性。目前,业界普遍使用CPU+GPU的硬件架构完成深度学习和深度强化学习的训练与部署,CPU用于数据的传输控制,GPU用于大吞吐量的并行计算,但是GPU ...
【技术保护点】
1.一种深度强化学习加速训练的方法,其特征在于,包括如下步骤:1)在CPU+FPGA平台下运行该方法,CPU作为控制设备同时运行强化学习交互环境,FPGA作为计算设备进行神经网络前向和反向的计算;2)在内存的固定位置分配参数ω、ω
【技术特征摘要】
1.一种深度强化学习加速训练的方法,其特征在于,包括如下步骤:1)在CPU+FPGA平台下运行该方法,CPU作为控制设备同时运行强化学习交互环境,FPGA作为计算设备进行神经网络前向和反向的计算;2)在内存的固定位置分配参数ω、ω-和经验池,ω为动作网络和评价网络的参数,ω-为目标网络的参数,由CPU完成初始化,FPGA和CPU可以通过数据传输总线直接访问;3)利用CPU的多进程机制同时进行两个进程,进程一进行策略与环境的交互来完成数据采集,进程二利用采集的数据进行神经网络的训练;4)进程一中的策略为运行与FPGA上的动作网络,输入为状态S,输出为动作Q值,CPU通过选择的Q值产生奖励值R和下一状态S’,将数据以形式为<S,A,R,S’>存入经验池中;5)进程二通过CPU抽取batch规模的数据,放入运行于FPGA上的目标网络产生数据标签,最后放入运...
【专利技术属性】
技术研发人员:秦亮,阮爱武,史傲凯,向蔺,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。