【技术实现步骤摘要】
一种对离散环境基于值的强化学习训练的优化方法
[0001]本专利技术涉及强化学习
,尤其涉及一种对离散环境基于值的强化学习训练的优化方法。
技术介绍
[0002]强化学习是一种机器学习,它关注的是软件代理在环境中应该如何采取行动,以最大化累积奖励的概念。在强化学习中,智能体通过与环境交互并接受奖励或惩罚形式的反馈来学习在环境中的行为。在对离散状态空间和动作空间进行强化学习的情况下,目标是找到一个策略,该策略将规定代理在每个状态下应该采取的动作。策略是一个将状态映射到动作的函数,目标是找到能够使代理的期望累积奖励最大化的策略。
[0003]训练神经网络在强化学习问题中找到一个好的策略的方法之一是使用Q
‑
learning算法。在Q
‑
learning中,神经网络被训练来估计每个状态
‑
动作对的Q值。状态
‑
行动对的Q值是在给定状态下采取行动并随后遵循最优策略的智能体的预期累积回报。为了训练神经网络来估计Q值,可以使用随机梯度下降的变体来调整网 ...
【技术保护点】
【技术特征摘要】
1.一种对离散环境基于值的强化学习训练的优化方法,其特征在于:包括以下步骤:步骤1、初始化表格型Q
‑
learning强化学习框架;步骤1.1、初始化环境,使用自定义迷宫环境;步骤1.2、初始化Q表,使用(Q,s,a)作为单位进行记录,其中,s是状态,a是动作,Q是状态动作对(s,a)对应的价值;步骤2、初始化训练价值函数;步骤3、开始进行训练,具体训练方法如下:步骤3.1、初始化智能体参数;步骤3.2、初始化智能体,让智能体与环境交互,获取状态s;步骤3.3、初始化记忆缓存栈memory;步骤3.4、根据Q(s,a),利用贪婪算法得出状态s对应的动作a;步骤3.5、执行动作a,获得当前状态动作的奖励r和下一个状态s
′
;步骤3.6、将(s,a,r)写入记忆缓存栈memory;步骤3.7、令s
′
=s;步骤3.8、判断状态s是否是终止状态,或步数已经达到了上限,如果是终止状态或步数已达上限,则进行下一步;否则返回步骤3.4;步骤3.9、从记忆缓存栈memory中pop一个(s,a,r),此时状态s为轨迹的最后一步;步骤3.10、判断当前经历是否特殊,如果经历特殊,则更新T(s,a),进行下一步,否则跳转至步骤3.15;步骤3.11、从记忆缓存栈memory中pop一个(s,a,r),此时状态s不是轨迹的最后一步;步骤3.12、判断当前经历与后一个经历的关系,后一个经历的状态是否是前一个经历采取最优动作后得到的,如果是,则更新T(s,a),继续下一步,否则跳转至步骤3.15;步骤3.13、如果(s,a,r)中r特殊,则更新T(s,a),继续下一步,否则跳转至步骤3.15;步骤3.14、更新Q值;步骤3.15、令s
′
=s;步骤3.16、判断记忆缓存栈memory...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。