一种基于值强化学习的连续控制方法技术

技术编号:37348271 阅读:47 留言:0更新日期:2023-04-22 21:44
本发明专利技术提供了一种基于值强化学习的连续控制方法,包括:构建多层神经网络模型的值函数;对所述值函数搜索最优动作;基于所述最优动作,对所述样本数据进行GPU加速批量动作优化,获取批量最优动作;基于所述批量最优动作,构建候选动作集;根据所述候选动作集执行动作,并更新所述值函数;对更新后的所述值函数进行迭代,获取所述值函数的最优策略。本发明专利技术为复杂环境下的连续控制任务提供了基于学习的、数据驱动的、有效的控制方法。有效的控制方法。有效的控制方法。

【技术实现步骤摘要】
一种基于值强化学习的连续控制方法


[0001]本专利技术属于连续控制
,尤其涉及一种基于值强化学习的连续控制方法。

技术介绍

[0002]面向复杂环境的智能控制方法是控制领域中的重要课题。其中,复杂环境包括模型未知的、不确定的、开放的、信息不完全的环境,广泛存在于自动驾驶、机器人等自主无人控制系统中。近年来,国家不断强化对复杂环境下控制方法的布局。国家工信部、发改委、财政部联合提出《机器人产业发展规划(2016

2020)》,科技部连续发布“智能机器人”重点专项,持续推进我国机器人技术和相关产业快速健康发展。2017年,国务院发布的《新一代人工智能发展规划》指出:“研究复杂环境下基于计算机视觉的定位、导航、识别等机器人及机械手臂自主控制技术”。如何通过人工智能方法来求解复杂环境下的自主控制问题是前沿研究方向。
[0003]标准控制工程在复杂环境下存在局限,具体包括:1)在时变、不确定、开放的环境中构造动态系统难(例如,四足机器人在做出走的动作后,地面是否可以承受多足机器人的重量不确定等);2)在相对稳定的环境中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于值强化学习的连续控制方法,其特征在于,包括:构建以状态为输入的多层神经网络模型的值函数;采用群智能优化算法搜索所述值函数在任意状态下的最优动作;基于所述群智能优化算法,对批量状态下的动作最优化进行GPU加速,获取批量最优动作;基于所述批量最优动作,构建候选动作集;根据所述候选动作集,选择执行动作,并更新所述值函数;对更新后的所述值函数进行迭代,重复状态输入

动作搜索

动作执行

状态输入这一循环,获取所述值函数的最优策略。2.根据权利要求1所述的基于值强化学习的连续控制方法,其特征在于,所述多层神经网络模型包括:输入层、隐藏层和输出层;所述输入层为:out0=(s
t
,a
t
)其中,s
t
为状态,a
t
为动作,cout0为状态动作对对应的特征向量;所述隐藏层为:其中,Relu为激活函数,为第i

1层的输出向量,θ
i
为第i层的权重;所述输出层为:其中,out4为输出层的输出向量,为隐藏层的输出向量,θ4为输出层权重。3.根据权利要求1所述的基于值强化学习的连续控制方法,其特征在于,搜索所述值函数在任意状态下的最优动作包括:基于所述值函数和输入状态,获取待优化目标;基于所述群智能优化算法,对所述待优化目标进行动作最优化处理,获取所述最优动作。4.根据权利要求1所述的基于值强化学习的连续控制方法,其特征在于,获取所述批量最优动作包括:基于批量输入状态,构建与输入状态数量相关的大种群;将所述大种群输入所述值函数,获取局部最优个体和全局最优个体;构建矩阵形式的粒子群优化模型;基于所述粒子群优化模型,更新所述局部最优个体和全局最优个体的个体位置,获取所述批量最优动作。5.根据权利要求4所述的基于值强化学习的连续控制方法,其特征...

【专利技术属性】
技术研发人员:王碧周镜吴剑青曾博文
申请(专利权)人:江西理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1