一种应对大规模问题的递归强化学习方法技术

技术编号：33654657 阅读：19 留言：0更新日期：2022-06-02 20:33

本发明专利技术公开了一种应对大规模问题的递归强化学习框架，包括以下步骤：步骤1，基于模型构建算法对问题进行建模，创建环境模型。步骤2，进行递归强化学习问题求解算法的训练求解过程。本发明专利技术的一种应对大规模问题的递归强化学习框架能够增强智能体对于可递归求解问题的学习能力，通过递归求解小规模问题来完成大规模问题的求解目的，在取得较好的扩展效果的同时，具有较强的可解释性，并且该框架能够适用于任意一种经典的强化学习算法，能够让智能体具备学会任意长度的问题的能力。体具备学会任意长度的问题的能力。体具备学会任意长度的问题的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种应对大规模问题的递归强化学习方法

[0001]本专利技术涉及一种针对大规模强化学习中扩展能力问题的递归强化学习方法，属于计算机应用领域，针对大规模强化学习中常见的维数灾难问题，结合经典计算机算法思维中的分治递归概念以及分层强化学习中的层次化、模块化概念，实现了一种具备更强扩展能力的递归强化学习算法。

技术介绍

[0002]强化学习技术是目前备受关注的一种机器学习方法，近年来取得了许多突破性的进展，例如围棋为代表的棋类博弈问题、星际争霸为代表的即时战略游戏对抗场景，主要通过智能体和环境进行交互。具体来说智能体根据获取的环境观测，做出决策动作，环境对该动作做出反馈，根据反馈结果对策略进行优化。
[0003]然而在实际应用场景中，强化学习面临以下典型问题：1)维数灾难，特别是在大规模问题中，动作空间和状态空间会随着问题规模的增长而指数级增长；2)奖赏稀疏问题。随着问题规模的扩大，决策序列长度变长，稀疏的奖赏函数使得智能体的学习效果变差。
[0004]而分层强化学习技术被认为是一种有前景的能够增强扩展强化学习能力...

【技术保护点】

【技术特征摘要】
1.一种应对大规模问题的递归强化学习方法，其特征在于，包含以下步骤：步骤1，基于模型构建算法对问题进行建模，创建环境模型；步骤2，进行递归强化学习问题求解算法的训练求解过程。2.如权利要求1所述的一种应对大规模问题的递归强化学习方法，其特征在于，第一步基于模型构建算法对问题进行建模，创建环境模型，具体包含以下步骤：步骤1.1，针对某原始决策问题，使用马尔科夫决策过程对规模为n的问题P
n
进行建模得到五元组模型M
grd，n
＝＜S，A，T，R，n＞，其中，n表示问题规模，S表示P
n
的状态集合，状态s∈S是一个长度和问题规模相关的n维向量，最小值为1，即对应问题规模为1的问题P1，状态s＝[s1，s2，...，s
n
]中的s
i
(1≤i≤n)是可分解的环境状态的一个分量，A表示动作空间，其中动作a∈A称为原问题的原子动作，与后文的递归调用动作相区分，T是状态动作对＜s，a，s
′
＞向实数区间[0，1]的映射，表示在状态s下执行动作a转移到下一个状态s
’
的概率，R表示上述状态转移所对应的奖赏函数；步骤1.2，构建状态判定函数F：在M
grd，n
＝＜S，A，T，R，n＞上存在一个通用状态判定函数F，给定任意长度状态F函数都能够输出对应的状态且输出的状态必须有一个值为完成态，记为Ω
完成
，同理，给定长度为n的状态s∈S，该F函数可作用于s，以及s的任意非空子序列上；步骤1.3，基于状态判定函数F设计状态抽象函数state_abs()，该函数通过对问题规模为n的状态s提取不同子序列并运用F函数进行判定，形成对s的编码，其一般形式为，给定长度为n的状态s∈S，state_abs(s)＝＜F(s1)，F(s2)，...，F(s
m
)＞，其中s
i
，i＝1，2，...，m是状态s的子序列；步骤1.4，基于状态抽象函数state_abs()构建抽象马尔科夫决策模型M
abs，n
，将该状态抽象函数作用于原始规模为n的马尔可夫决策过程M
grd，n
的状态集合S，可以得到新的状态集合S
′
＝state_abs(S)。进而构建抽象马尔科夫决策模型M
abs，n
＝＜S
′
，A，R
′
，T
′
，n＞，其中，R
’
和T
’
分别为定义在抽象状态集合上的奖赏和状态转移函数；步骤1.5，设计递归调用动作RC：递归调用动作，即，RC动作，会引起工作环境指针对应的问题规模减一，即，从规模n减为规模n
‑
1，并通过缩减原模型M
grd，n
的状态长度创建规模为n
‑
1的原模型实例M
grd，n
‑1和抽象模型实例M
abs，n
‑1；步骤1.6，设计递归返回动作RET：动作会引起工作环境指针对应的问题规模加一，即，从规模n
‑
1增加为规模n，并将当前状态和栈顶所保存的状态合并并弹栈，恢复到模型M
grd，n
；步骤1.7，设计递归状态栈：该栈用于保存增强环境中由于递归调用RC动作所产生的剩余状态部分，当执行RC动作时，将当前剩余的状态压入递归状态栈中，即，将s\s
RC后
＝[x
n
]入栈，其中\是集合减的意思，当执行RET动作时，当前的状态为s＝[s1，s2，...，s
n
‑1]，栈顶所保存的状态为[s
n
]，则RET后的状态为s
RET后
＝[s1，s2，...，s
n
‑1，s
n
]；步骤1.8，设计递归动作增强后的抽象马尔可夫决策过程模型在步骤1.4中获得的抽象马尔科夫决策模型M
...

【专利技术属性】
技术研发人员：张铖，汪亮，陶先平，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人