基于强化学习的机器人复杂时序逻辑任务路径规划方法技术

技术编号:33134863 阅读:27 留言:0更新日期:2022-04-17 00:58
本发明专利技术涉及一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,该方法包括:将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;将设定环境下的机器人的任务需求描述成信号时序逻辑任务;设计鲁棒度;基于鲁棒度设计奖励函数;在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。与现有技术相比,本发明专利技术强化学习训练过程中使用到的奖励函数在体现信号时序逻辑任务的特征的基础上更具有合理性,使得路径规划结果更加合理、有效。有效。有效。

【技术实现步骤摘要】
基于强化学习的机器人复杂时序逻辑任务路径规划方法


[0001]本专利技术涉及机器人路径规划
,尤其是涉及一种基于强化学习的机器人复杂时序逻辑任务路径规划方法。

技术介绍

[0002]机器人是为解放人类双手、适应复杂环境而产生的,针对机器人的研究具有实际应用前景,是眼下的热点方向。机器人路径规划是机器人研究中的重要内容,研究中通常只要求到达指定目标点,如在不发生碰撞的前提下到达某个目标区域,并保证包括如步数最少、时间最短、消耗能量最小等指标的最优,任务整体相对简单,对时间约束、目标需求等任务复杂性指标的描述能力有限;而且采用手工设计,没有实现自动化的设计,工作量大,调试周期长。而信号时序逻辑(STL,Signal Temporal Logic)填补了这部分空白,具有诸多优势。信号时序逻辑归属于形式化方法领域,是一种符号化的工具,具有丰富的符号语义——不仅可以表征时间约束,还可以表征大量的时序特征和逻辑特征,具有系统性表述复杂任务的能力。而任务经由基本符号表示,也可根据基本符号进行拆分,因此只要设计好基本符号在不同控制或学习框架内的转化,即可实现任务流程及后续操作的自动化设计。
[0003]在任务流程自动化的基础上,形成了通过传统控制解决复杂信号时序逻辑任务的方法。现有的传统控制大多是把时序逻辑任务看作是一种约束条件,再整合到针对原有对象的控制过程当中。因此首先,控制对象的模型必不可少。但实际中对于复杂对象,很难得到其模型,即使得到,模型的精确性也难以保证,而这势必会对控制造成较大影响。除了需要得到精确模型之外,传统控制也必须将由信号时序逻辑描述的任务转化为包含二值变量的约束,而这是个递归迭代定义的过程——即由基本符号组合形成的总任务需要根据基本符号进行逐语句的“翻译”。外加上原有控制对象的模型约束,形成一个总的优化问题,再运用混合整数规划求解。但是这样会引入大量的变量和约束条件,计算成本显著上升,求解困难。近期的另一种方法是针对信号时序逻辑任务构造相应的控制障碍函数(CBF,Control Barrier Function),通过将状态的约束转化为控制量的约束,使得问题变成控制量的解的存在性问题。但控制障碍函数的设计过程复杂,有时可能会有较大的保守性,因此需要较多的实践经验,难以快速上手。
[0004]而强化学习是当下人工智能领域的热点研究内容之一,是一种通过学习处理决策问题的方法,具有广泛的应用前景。智能体通过采取类似于生物学习的机制——即通过与环境进行互动,来获取当前决策的环境反馈信息,表现为价值,再在经验整理的基础上进行最优决策。这种基于数据学习环境信息的方式,相比传统控制方法,首先不需要模型,将对模型的需求转化为数据的需求,更能反映真实模型的情况;可以在线学习,智能体与环境互动不断更新模型,并根据更新后的模型做出更好地决策;只需要设计合理的奖励函数,正确反映对目标的需求,从而引导最优决策。因此在信号时序逻辑任务场景下,如何设计奖励函数成为重中之重。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的机器人复杂时序逻辑任务路径规划方法。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,该方法包括:
[0008]将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;
[0009]将设定环境下的机器人的任务需求描述成信号时序逻辑任务;
[0010]设计鲁棒度;
[0011]基于鲁棒度设计奖励函数;
[0012]在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。
[0013]优选地,马尔可夫决策过程模型表示为:(S,A,P,R,γ),其中S表示状态集合,A表示机器人的动作集合,P为转移概率,表示从状态s1采取动作a到状态s2的概率,R为奖励函数,反映发生状态转移后获取的奖励值,γ为折扣因子,反映的是未来奖励在当下时刻的估值比。
[0014]优选地,机器人与环境之间的马尔可夫决策过程模型建模方式具体包括:
[0015]将机器人运动的整个区域划分为网格,每个网格为一个状态,代表机器人可能的位置,进而组成状态集合;
[0016]将机器人的动作定义为上、下、左、右四个动作,组成机器人的动作集合,同时转移概率设置为未知。
[0017]优选地,鲁棒度通过如下方式得到:
[0018]设计初始鲁棒度,初始鲁棒度在基本谓词命题μ的基础上递归得到:
[0019]ρ
True
(S,t)=ρ
max
(≥0)
[0020]ρ
μ
(S,t)=d

h(S(t))
[0021][0022][0023][0024][0025][0026][0027][0028](S,t)表示位置序列S从时刻t开始的子序列,μ为谓词命题,为任务,表示任务“取反”,表示任务的“交”,U
[a,b]表示“直到”之意,下标表示在[a,b]的时间区间内,是中的等效效果,等效为True表示“真”,False表示“假”,h(s)为与位置相关的函数,d为一般性描述,ρ表示初始鲁棒度,
t1、t2表示时刻点;
[0029]对初始鲁棒度进行优化,得到优化后的鲁棒度,进而基于优化后的鲁棒度设计奖励函数。
[0030]优选地,优化初始鲁棒度的方式包括:
[0031][0032]其中,ρ

为优化后的鲁棒度,k为鲁棒度上限阈值。
[0033]优选地,优化初始鲁棒度的方式包括:
[0034][0035]其中,ρ

为优化后的鲁棒度,k为鲁棒度上限阈值。
[0036]优选地,计算初始鲁棒度时,对于具有时间约束的任务,计算完成任务的时间窗口,时间窗口通过递归计算得到:
[0037]length(u)=1
[0038]如果或者G
[a,b]u
[0039][0040][0041][0042][0043][0044][0045]其中,length为时间窗口的长度,u为任务,表示任务的“并”,[a,b]为时间区间。
[0046]优选地,所述的奖励函数表示为实时奖励之和,所述的实时奖励对应取为鲁棒度的大小。
[0047]优选地,强化学习算法采用Q

Learning算法。
[0048]优选地,采用Q

Learning算法求解的目标表示为:
[0049][0050]其中,π为路径规划策略,E表示期望,γ
t
为t时刻的折扣因子,T为整条路径规划的时域长度,R(S
t
,A
t
)表示当前位置S
t
执行动作A
t
所获取到的奖励。...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,该方法包括:将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;将设定环境下的机器人的任务需求描述成信号时序逻辑任务;设计鲁棒度;基于鲁棒度设计奖励函数;在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。2.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,马尔可夫决策过程模型表示为:(S,A,P,R,γ),其中S表示状态集合,A表示机器人的动作集合,P为转移概率,表示从状态s1采取动作a到状态s2的概率,R为奖励函数,反映发生状态转移后获取的奖励值,γ为折扣因子,反映的是未来奖励在当下时刻的估值比。3.根据权利要求3所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,机器人与环境之间的马尔可夫决策过程模型建模方式具体包括:将机器人运动的整个区域划分为网格,每个网格为一个状态,代表机器人可能的位置,进而组成状态集合;将机器人的动作定义为上、下、左、右四个动作,组成机器人的动作集合,同时转移概率设置为未知。4.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,鲁棒度通过如下方式得到:设计初始鲁棒度,初始鲁棒度在基本谓词命题μ的基础上递归得到:ρ
True
(S,t)=ρ
max
(≥0)ρ
μ
(S,t)=d

h(S(t))))))))(S,t)表示位置序列S从时刻t开始的子序列,μ为谓词命题,为任务,表示任务“取反”,表示任务的“交”,U
[a,b]
表示“直到”之意,下标表示在[a,b]的时间区间内,是中的等效效果,等效为True表示

真”,False表示“假”,h(s...

【专利技术属性】
技术研发人员:殷翔任晓华李少远
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1