一种对离散环境基于值的强化学习训练的优化方法技术

技术编号：37822428 阅读：15 留言：0更新日期：2023-06-09 09:59

本发明专利技术提供一种对离散环境基于值的强化学习训练的优化方法，涉及强化学习技术领域。该方法初始化表格型Q

全部详细技术资料下载

【技术实现步骤摘要】
一种对离散环境基于值的强化学习训练的优化方法

[0001]本专利技术涉及强化学习
，尤其涉及一种对离散环境基于值的强化学习训练的优化方法。

技术介绍

[0002]强化学习是一种机器学习，它关注的是软件代理在环境中应该如何采取行动，以最大化累积奖励的概念。在强化学习中，智能体通过与环境交互并接受奖励或惩罚形式的反馈来学习在环境中的行为。在对离散状态空间和动作空间进行强化学习的情况下，目标是找到一个策略，该策略将规定代理在每个状态下应该采取的动作。策略是一个将状态映射到动作的函数，目标是找到能够使代理的期望累积奖励最大化的策略。
[0003]训练神经网络在强化学习问题中找到一个好的策略的方法之一是使用Q
‑
learning算法。在Q
‑
learning中，神经网络被训练来估计每个状态
‑
动作对的Q值。状态
‑
行动对的Q值是在给定状态下采取行动并随后遵循最优策略的智能体的预期累积回报。为了训练神经网络来估计Q值，可以使用随机梯度下降的变体来调整网络的权重和偏差。在每次训练迭代中，向网络提供一个状态
‑
动作对，并使用得到的Q值预测来更新网络的权重和偏差。这个过程对许多状态
‑
动作对重复，随着时间的推移，网络学会产生准确的Q值估计，然后可以用来为强化学习问题找到最优策略。
[0004]在强化学习中，有几种计算状态
‑
动作对优先级的方法。一些最常见的方法包括：使用状态
‑r/>动作对的Q值、利用时间差误差、使用预期的未来奖励、利用Q值的不确定性等等。这些计算方法并没有考虑轨迹的时序性，即对于相邻的两个状态动作对，前者的优先级可以根据后者进行计算。

技术实现思路

[0005]本专利技术要解决的技术问题是针对上述现有技术的不足，提供一种对离散环境基于值的强化学习训练的优化方法，降低计算量，提高训练速度，降低训练时间，同时保证训练效果。
[0006]为解决上述技术问题，本专利技术所采取的技术方案是：
[0007]一种对离散环境基于值的强化学习训练的优化方法，包括以下步骤：
[0008]步骤1、初始化表格型Q
‑
learning强化学习框架；
[0009]步骤1.1、初始化环境，使用自定义迷宫环境；
[0010]步骤1.2、初始化Q表，使用(Q,s,a)作为单位进行记录，其中，s是状态，a是动作，Q是状态动作对(s,a)对应的价值；
[0011]步骤2、初始化训练价值函数；
[0012]步骤3、开始进行训练，具体训练方法如下：
[0013]步骤3.1、初始化智能体参数；
[0014]步骤3.2、初始化智能体，让智能体与环境交互，获取状态s；
[0015]步骤3.3、初始化记忆缓存栈memory；
[0016]步骤3.4、根据Q(s,a)，利用贪婪算法得出状态s对应的动作a；
[0017]步骤3.5、执行动作a，获得当前状态动作的奖励r和下一个状态s
′
；
[0018]步骤3.6、将(s,a,r)写入记忆缓存栈memory；
[0019]步骤3.7、令s
′
＝s；
[0020]步骤3.8、判断状态s是否是终止状态，或步数已经达到了上限，如果是终止状态或步数已达上限，则进行下一步；否则返回步骤3.4；
[0021]步骤3.9、从记忆缓存栈memory中pop一个(s,a,r)，此时状态s为轨迹的最后一步；
[0022]步骤3.10、判断当前经历是否特殊，如果经历特殊，则更新T(s,a)，进行下一步，否则跳转至步骤3.15；
[0023]步骤3.11、从记忆缓存栈memory中pop一个(s,a,r)，此时状态s不是轨迹的最后一步；
[0024]步骤3.12、判断当前经历与后一个经历的关系，后一个经历的状态是否是前一个经历采取最优动作后得到的，如果是，则更新T(s,a)，继续下一步，否则跳转至步骤3.15；
[0025]步骤3.13、如果(s,a,r)中r特殊，则更新T(s,a)，继续下一步，否则跳转至步骤3.15；
[0026]步骤3.14、更新Q值；
[0027]步骤3.15、令s
′
＝s；
[0028]步骤3.16、判断记忆缓存栈memory是否为空，如果是，则进入下一个步骤，如果不是，则返回步骤3.11；
[0029]步骤3.17、判断问题是否被解决，如果是，则结束，否则重新开始步骤3。
[0030]进一步地，步骤2的具体方法如下：
[0031]步骤2.1、初始化T表，使用(T,s,a)作为单位进行记录，T为训练价值；
[0032]步骤2.2、初始化训练价值的阈值t。
[0033]进一步地，步骤3.10判断经历特殊的具体方法如下：
[0034]步骤3.10.1、对记忆缓存栈memory中的奖励r进行统计，如果当前的奖励r占比最低，则经历特殊。
[0035]步骤3.10.2、如果当前经历的终止原因是完成环境终止目标而不是步数达到上限，则经历特殊。
[0036]进一步地，步骤3.10更新T(s,a)的具体方法如下：如果经历特殊，设置T(s,a)为高。
[0037]进一步地，步骤3.12更新T(s,a)的具体方法如下：
[0038]T(s,a)＝γ*T(s
′
,a
′
)，T(s
′
,a
′
)>t
[0039]即前一个状态动作对的T值是后一个状态动作对的T值乘以γ；其中，γ为决定未来奖励相对于当前奖励重要性的超参数；a
′
为下一个动作。
[0040]进一步地，步骤3.13的具体方法如下：
[0041]对记忆缓存栈memory中的奖励r进行统计，如果当前的r占比最低，则r特殊，即代表经历特殊，则设置T(s,a)为高。
[0042]进一步地，步骤3.14更新Q值的的具体方法如下：
[0043][0044]采用上述技术方案所产生的有益效果在于：本专利技术提供的对离散环境基于值的强化学习训练的优化方法，是一种针对离散环境的优化方法，且离散环境的特殊奖励越稀疏效果越好。该方法能够大幅度降低强化学习训练的计算量，提高训练的速度，降低训练的时间，同时不会对训练效果有负面影响。通过在迷宫环境下的实验，发现该方法大幅度减少了计算量和时间的消耗。
附图说明
[0045]图1为本专利技术实施例提供的对离散环境基于值的强化学习训练的优化方法流程图；
[0046]图2为本专利技术实施例提供的迷宫环境示意图；
[0047]图3为本专利技术实施例提供的迷宫环境使用普通Q学习算法训练效果图；
[0048]图4为本专利技术实施例提供的迷宫环境使用本专利技术的优本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对离散环境基于值的强化学习训练的优化方法，其特征在于：包括以下步骤：步骤1、初始化表格型Q
‑
learning强化学习框架；步骤1.1、初始化环境，使用自定义迷宫环境；步骤1.2、初始化Q表，使用(Q,s,a)作为单位进行记录，其中，s是状态，a是动作，Q是状态动作对(s,a)对应的价值；步骤2、初始化训练价值函数；步骤3、开始进行训练，具体训练方法如下：步骤3.1、初始化智能体参数；步骤3.2、初始化智能体，让智能体与环境交互，获取状态s；步骤3.3、初始化记忆缓存栈memory；步骤3.4、根据Q(s,a)，利用贪婪算法得出状态s对应的动作a；步骤3.5、执行动作a，获得当前状态动作的奖励r和下一个状态s
′
；步骤3.6、将(s,a,r)写入记忆缓存栈memory；步骤3.7、令s
′
＝s；步骤3.8、判断状态s是否是终止状态，或步数已经达到了上限，如果是终止状态或步数已达上限，则进行下一步；否则返回步骤3.4；步骤3.9、从记忆缓存栈memory中pop一个(s,a,r)，此时状态s为轨迹的最后一步；步骤3.10、判断当前经历是否特殊，如果经历特殊，则更新T(s,a)，进行下一步，否则跳转至步骤3.15；步骤3.11、从记忆缓存栈memory中pop一个(s,a,r)，此时状态s不是轨迹的最后一步；步骤3.12、判断当前经历与后一个经历的关系，后一个经历的状态是否是前一个经历采取最优动作后得到的，如果是，则更新T(s,a)，继续下一步，否则跳转至步骤3.15；步骤3.13、如果(s,a,r)中r特殊，则更新T(s,a)，继续下一步，否则跳转至步骤3.15；步骤3.14、更新Q值；步骤3.15、令s
′
＝s；步骤3.16、判断记忆缓存栈memory...

【专利技术属性】
技术研发人员：高天寒，陈栢成，米庆巍，江宛婷，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人