一种基于值强化学习的连续控制方法技术

技术编号:37348271 阅读:30 留言:0更新日期:2023-04-22 21:44
本发明专利技术提供了一种基于值强化学习的连续控制方法,包括:构建多层神经网络模型的值函数;对所述值函数搜索最优动作;基于所述最优动作,对所述样本数据进行GPU加速批量动作优化,获取批量最优动作;基于所述批量最优动作,构建候选动作集;根据所述候选动作集执行动作,并更新所述值函数;对更新后的所述值函数进行迭代,获取所述值函数的最优策略。本发明专利技术为复杂环境下的连续控制任务提供了基于学习的、数据驱动的、有效的控制方法。有效的控制方法。有效的控制方法。

【技术实现步骤摘要】
一种基于值强化学习的连续控制方法


[0001]本专利技术属于连续控制
,尤其涉及一种基于值强化学习的连续控制方法。

技术介绍

[0002]面向复杂环境的智能控制方法是控制领域中的重要课题。其中,复杂环境包括模型未知的、不确定的、开放的、信息不完全的环境,广泛存在于自动驾驶、机器人等自主无人控制系统中。近年来,国家不断强化对复杂环境下控制方法的布局。国家工信部、发改委、财政部联合提出《机器人产业发展规划(2016

2020)》,科技部连续发布“智能机器人”重点专项,持续推进我国机器人技术和相关产业快速健康发展。2017年,国务院发布的《新一代人工智能发展规划》指出:“研究复杂环境下基于计算机视觉的定位、导航、识别等机器人及机械手臂自主控制技术”。如何通过人工智能方法来求解复杂环境下的自主控制问题是前沿研究方向。
[0003]标准控制工程在复杂环境下存在局限,具体包括:1)在时变、不确定、开放的环境中构造动态系统难(例如,四足机器人在做出走的动作后,地面是否可以承受多足机器人的重量不确定等);2)在相对稳定的环境中,专家也需要针对性的构造动态系统,因此,控制策略在不同机器间的自适应性低(例如,相同功能的多足机器人在脚的长度发生改变后,需要重新设计构造动态系统);3)在变量较多的控制系统中,求解最优动作慢(例如,相较于单关节的机械臂,依多足机器人构造的动态系统求解所需的计算成本更高)。因此,需要引入自适应的、由数据驱动的、基于学习的控制方法。例如,强化学习。
[0004]强化学习是数据驱动的人工智能方法,同时也是重要的智能控制方法。它通过“决策

与环境交互

更新决策指标”这一循环的学习过程,最终实现以目标(期望回报最大化)为导向的最优控制。得益于深度神经网络,强化学习通过与计算机视觉等传感技术结合,扩大其在未知、不确定环境下的应用前景。例如,在围棋等博弈场景和多足机器人、机械手臂等连续控制场景中均有应用。
[0005]目前,制约强化学习落地的关键是样本效率不足,导致学习所需的训练时间居高不下。基于策略的强化学习因其固有机制导致策略变化平滑,短期内改变幅度较小;基于值的强化学习策略变化幅度大,有望降低在学习的训练成本。
[0006]对已有技术分为:1.值强化学习在连续控制问题中的应用和2.群智能优化在强化学习中的应用两部分。
[0007]1.基于值的强化学习在连续控制问题中的应用可以粗略分为以下三类:1)简化值函数,即通过牺牲神经网络的强表达能力来获得一个较为规范的值函数(例如,凸函数),从而实现动作最优化;2)特殊化动作分布,即通过先验假设动作分布模型(例如,高斯分布),再通过学习来调整分布模型中的关键参数,从而实现动作最优化;3)离散化动作空间,即通过将连续空间划分为多个离散空间,再使用强化学习方法来求解转换后的离散控制问题。三者都会导致值函数的表达能力下降。
[0008]2.群智能优化在强化学习中的应用可以分为两个方面:1)值函数模型最优化,即
通过群智能优化方法来搜索最优的值函数结构、参数等,从而根据已有样本获得最优的值函数;2)策略最优化,即通过群智能优化中的个体替换强化学习中的行为策略,在多个体并行搜索的条件下,获得最好的决策序列(最优经验),从而提高学习效率。
[0009]两者都没有在标准强化学习的框架下实现连续空间下的动作最优化。

技术实现思路

[0010]为解决上述技术问题,本专利技术提出了一种基于值强化学习的连续控制方法,为复杂环境下的连续控制任务提供了基于学习的、数据驱动的、有效的控制方法。
[0011]为实现上述目的,本专利技术提供了一种基于值强化学习的连续控制方法,包括:
[0012]构建以状态为输入的多层神经网络模型的值函数;
[0013]采用群智能优化算法搜索所述值函数在任意状态下的最优动作;
[0014]基于所述群智能优化算法,对批量状态下的动作最优化进行GPU加速,获取批量最优动作;
[0015]基于所述批量最优动作,构建候选动作集;
[0016]根据所述候选动作集,选择执行动作,并更新所述值函数;
[0017]对更新后的所述值函数进行迭代,重复状态输入

动作搜索

动作执行

状态输入这一循环,获取所述值函数的最优策略。
[0018]可选地,所述多层神经网络模型包括:输入层、隐藏层和输出层;
[0019]所述输入层为:
[0020]out0=(s
t
,a
t
)
[0021]其中,s
t
为状态,a
t
为动作,out0为状态动作对对应的特征向量;
[0022]所述隐藏层为:
[0023][0024]其中,Relu为激活函数,为第i

1层的输出向量,θ
i
为第i层的权重;
[0025]所述输出层为:
[0026][0027]其中,out4为输出层的输出向量,为隐藏层的输出向量,θ4为输出层权重。
[0028]可选地,搜索所述值函数在任意状态下的最优动作包括:
[0029]基于所述值函数和输入状态,获取待优化目标;
[0030]基于所述群智能优化算法,对所述待优化目标进行动作最优化处理,获取所述最优动作。
[0031]可选地,获取所述批量最优动作包括:
[0032]基于批量输入状态,构建与输入状态数量相关的大种群;
[0033]将所述大种群输入所述值函数,获取局部最优个体和全局最优个体;
[0034]构建矩阵形式的粒子群优化模型;
[0035]基于所述粒子群优化模型,更新所述局部最优个体和全局最优个体的个体位置,获取所述批量最优动作。
[0036]可选地,所述粒子群优化模型为:
[0037]V=wV+r1c1(Lb

P)+r2c2(x
g

P)
[0038]P=P+V
[0039]其中,V为粒子的速度矩阵,w为惯性权重,r1为[0,1]区间内的随机数,c1为局部学习因子,Lb为局部最优个体,P为粒子的位置矩阵,r2为[0,1]区间内的随机数,c2为全局学习因子,x
g
为全局最优个体。
[0040]可选地,获取所述局部最优个体和全局最优个体包括:
[0041]将所述大种群输入所述值函数,获取各个个体的适应度矩阵;
[0042]对所述适应度矩阵进行预设维度的矩阵变换;
[0043]将变换后的所述适应度矩阵通过argmax函数处理,获得所述局部最优个体和全局最优个体。
[0044]可选地,根据所述候选动作集,选择执行动作的方式为:采用softmax算子随机采样;
[0045]所述softmax算子随机采样为:
...

【技术保护点】

【技术特征摘要】
1.一种基于值强化学习的连续控制方法,其特征在于,包括:构建以状态为输入的多层神经网络模型的值函数;采用群智能优化算法搜索所述值函数在任意状态下的最优动作;基于所述群智能优化算法,对批量状态下的动作最优化进行GPU加速,获取批量最优动作;基于所述批量最优动作,构建候选动作集;根据所述候选动作集,选择执行动作,并更新所述值函数;对更新后的所述值函数进行迭代,重复状态输入

动作搜索

动作执行

状态输入这一循环,获取所述值函数的最优策略。2.根据权利要求1所述的基于值强化学习的连续控制方法,其特征在于,所述多层神经网络模型包括:输入层、隐藏层和输出层;所述输入层为:out0=(s
t
,a
t
)其中,s
t
为状态,a
t
为动作,cout0为状态动作对对应的特征向量;所述隐藏层为:其中,Relu为激活函数,为第i

1层的输出向量,θ
i
为第i层的权重;所述输出层为:其中,out4为输出层的输出向量,为隐藏层的输出向量,θ4为输出层权重。3.根据权利要求1所述的基于值强化学习的连续控制方法,其特征在于,搜索所述值函数在任意状态下的最优动作包括:基于所述值函数和输入状态,获取待优化目标;基于所述群智能优化算法,对所述待优化目标进行动作最优化处理,获取所述最优动作。4.根据权利要求1所述的基于值强化学习的连续控制方法,其特征在于,获取所述批量最优动作包括:基于批量输入状态,构建与输入状态数量相关的大种群;将所述大种群输入所述值函数,获取局部最优个体和全局最优个体;构建矩阵形式的粒子群优化模型;基于所述粒子群优化模型,更新所述局部最优个体和全局最优个体的个体位置,获取所述批量最优动作。5.根据权利要求4所述的基于值强化学习的连续控制方法,其特征...

【专利技术属性】
技术研发人员:王碧周镜吴剑青曾博文
申请(专利权)人:江西理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1