The invention discloses a neural network reinforcement learning method and system based on fitness trajectory. The reinforcement learning methods of the neural network include: initializing the weights of the neural network, strengthening the learning parameters and fitness trajectories; obtaining the current environmental state and immediate return value; calculating the Q-value function of the reinforcement learning; obtaining the fitness trajectory and updating the weights of the neural network; detecting the new environmental state and immediate return value; satisfying the end conditions and strengthening the new environmental state and immediate return value. At the end of the learning process, if the end condition is not satisfied, return to re-detect to obtain the current environmental status and immediate return value. Its advantages are: solving the problem of function approximation in continuous state space in reinforcement learning, introducing fitness trajectory, effectively preserving the correct access path of the experienced state actions, improving the generalization performance of the neural network, and finally speeding up the convergence speed of the algorithm.
【技术实现步骤摘要】
基于适合度轨迹的神经网络强化学习方法及系统
本专利技术涉及机器学习
,更具体地,涉及一种基于适合度轨迹的神经网络强化学习方法及系统。
技术介绍
强化学习在人工智能领域包括工业生产、电梯调度、路径规划方面越多的得到运用,可以用来解决随机性或不确定性动态系统最优化这些决策类问题,随着强化学习的发展及各方面应用的扩展,需要的结合的技术和算法也越来越多,此时经典的查表法就不能满足需求。因为传统的强化学习算法需要把state-action对应的值函数保存在表中,以进行查询,但是计算机的存储有限,在面对连续状态空间的问题值表法就无法存放这种大规模数量的值函数。面对上述难题,较常用的方式是将连续空间分散成单个可分的状态集,使其能够有限的分散成有限的状态,然后使用经典的强化学习算法,但是这样会引起很多问题,例如离散化后的状态可能不再具有马尔科夫性质,引入无法直接观测到的隐含状态,同时可能导致强化学习不再具有马尔科夫性,这时候函数策略无法收敛,强化学习的学习能力变差。同时神经网络逼近函数值的快慢以及是否是全局极值都是要解决的问题,现有的一些算法容易让强化学习陷入局部极值,无法 ...
【技术保护点】
1.一种基于适合度轨迹的神经网络强化学习方法,其特征在于,所述神经网络强化学习方法包括:初始化神经网络权值,强化学习参数及适合度轨迹;检测获取当前环境状态和立即回报值;计算强化学习的Q值函数;基于所述Q值函数,获取所述适合度轨迹和更新所述神经网络权值;检测新的环境状态和立即回报值;所述新的环境状态和立即回报值满足结束条件,强化学习结束,不满足结束条件,返回重新检测获取所述当前环境状态和立即回报值。
【技术特征摘要】
1.一种基于适合度轨迹的神经网络强化学习方法,其特征在于,所述神经网络强化学习方法包括:初始化神经网络权值,强化学习参数及适合度轨迹;检测获取当前环境状态和立即回报值;计算强化学习的Q值函数;基于所述Q值函数,获取所述适合度轨迹和更新所述神经网络权值;检测新的环境状态和立即回报值;所述新的环境状态和立即回报值满足结束条件,强化学习结束,不满足结束条件,返回重新检测获取所述当前环境状态和立即回报值。2.根据权利要求1所述的基于适合度轨迹的神经网络强化学习方法,其中,所述计算强化学习的Q值函数包括:基于贪心策略,选择动作at施加到所述当前环境状态中;基于隐含层的高斯核函数,计算强化学习的Q值函数。3.根据权利要求2所述的基于适合度轨迹的神经网络强化学习方法,其中,所述Q值函数为:式中,wo=[w1,w2...w25]T,为隐含层与输出层之间的权值矩阵;为一个输出结点的激活函数;s为当前状态;x为输入信号;c为中心向量;σ为宽度参数;b为偏差值;k为隐层神经元数目;j为输入信号的维度。4.根据权利要求3所述的基于适合度轨迹的神经网络强化学习方法,其中,获取所述适合度轨迹和更新所述神经网络权值包括:基于所述Q值函数,计算所述适合度轨迹和误差信息;基于所述适合度轨迹和误差信息,按照梯度下降法,依次计算第二层和第一层神经网络权值的误差,获取更新的所述神经网络权值。5.根据权利要求4所述的基于适合度轨迹的神经网络强化学习方法,其中,所述适合度轨迹通过迭代计算获取:e(t)=γλe(t-1)+at式中,γ为...
【专利技术属性】
技术研发人员:王婷婷,
申请(专利权)人:中国石油化工股份有限公司,中国石油化工股份有限公司石油物探技术研究院,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。