【技术实现步骤摘要】
一种基于强化学习的复合避障控制方法及装置
[0001]本专利技术涉及强化学习和最优控制领域,更具体地,涉及一种基于强化学习的复合避障控 制方法及装置。
技术介绍
[0002]近年来,以强化学习为代表的人工智能技术极大促进了自主无人系统的发展和应用,例 如无人车、无人机等。这类运动系统在执行任务时通常面临着复杂的障碍环境,顺利完成任 务需要可靠的避障控制方法。为了能够实现在线快速决策,局部避障方法受到了广泛关注, 例如人工势场法等。
[0003]局部避障方法仅以安全避障为控制目标,没有考虑控制策略在整个运动轨迹上的最优性, 其优化性有待进一步提升。因此,基于强化学习的智能控制方法为解决这个问题提供了一种 思路,即利用神经网络和策略迭代实现控制策略的近似求解。
[0004]尽管许多研究已经提出了一些基于强化学习的避障控制方案,但是,这些方法仍然存在 一些问题,例如奖励设置定义不清晰、无法在策略优化中平衡局部安全性、自主探索中对数 据的利用率仍然不高。因此,迫切需要开发一种新型的避障控制方法以满足实际使用。 >
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的复合避障控制方法,其特征在于,所述方法包括以下步骤:S10、构建避障环境和用于障碍规避的最优控制模型;S20、根据所述障碍环境和最优控制模型采用策略迭代法和状态跟随规避法的线性凸组合进行相互切换构建复合避障控制模型;所述复合避障控制模型为:其中λ(x)是切换函数,其取值同样在0到1之间平滑变化;是策略迭代法对代价函数的估计值;是状态跟随规避法对代价函数的估计值;S30、构建基于行为
‑
评价神经网络和强化学习的避障控制策略;S40、利用外推获取经验数据并确定自适应网络更新规则。2.根据权利要求1所述的一种基于强化学习的复合避障控制方法,其特征在于,所述步骤S10中构建避障环境和用于障碍规避的最优控制模型过程:步骤S101,围绕障碍物体构建障碍环境;即:通过如下仿射非线性模型表征自主无人系统的智能体:其中:f(x(t))是内部动态信息,g(x(t))表示控制耦合矩阵,u(t)表示控制输入或控制策略;所述智能体利用障碍检测器探测与每个障碍物之间的实时距离其控制目的是安全绕过每一个障碍物抵达目标点x
e
,障碍物的数量记为N
o
;所述避障环境是将障碍物看作是圆形或球形区域,建立对应的障碍区域O
i
;在此基础上辐射出冲突区域避让区域和切换区域智能体避障中面临的区域可以表示为步骤S102,构建安全运行域并设计障碍函数;利用前向不变性可以将障碍区域表示为其中:h(x)是一个光滑函数,此时系统的安全运行域为S=Ψ
‑
O,其中Ψ表示系统的操作空间;基于安全运行域,利用障碍函数法,设计如下的障碍函数B(x):其中:K
b
是一个正增益,s(x)是一个光滑变化的调度函数,其取值在0到1之间平滑变化。步骤S103,建立基于代价函数的最优控制模型;系统运行成本x
T
Qx、控制能量成本u
T
Ru和障碍函数B(x),建立如下待优化的代价函数:其中:Q和R是正定且对称的常值矩阵,用以衡量具体成本项的大小;利用贝尔曼最优性原理,建立用于障碍规避的最优控制模型如下:
其中:是最优代价函数J
*
(x)关于状态x的偏导数。3.根据权利要求1所述的一种基于强化学习的复合避障控制方法,其特征在于,所述步骤20中策略迭代法和所述状态跟随规避法的线性凸组合的规则:所述策略迭代法方法通过如下公式实现切换函数,该函数影响策略迭代法何时开始切换至状态跟随规避法;其中:λ(x)包含N
o
个分量,每个分量均在0到1之间光滑变化,如果障碍物i始终不在智能体的检测范围内,那么对应的分量λ
i
(x)则永远不被激活,即λ
i
(x)=0;所述状态跟随规避法通过如下公式实现调度函数,该函数影响最优控制模型的障碍规避过程;其中,s(x)同样包含N
o
个分量,每个分量均在0到1之间光滑变化;如果障碍物i对应的分量λ
i
(x)不被激活,那么s
i
(x)同样永远不被激活;随着智能体接近障碍区域,调度函数会趋近1,意味着障碍函数对代价函数的影响越大,这将与策略优化行为相冲突,进而使得智能体在后续的动作中采取避让行为。4.根据权利要求1所述的一种基于强化学习的复合避障控制方法,其特征在于,所述步骤S30中构建行为
‑
评价神经网络和强化学习的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。