【技术实现步骤摘要】
基于时态逻辑控制策略的配送机器人路径规划方法
[0001]本专利技术涉及机器人路径规划方法,尤其涉及一种基于时态逻辑控制策略的配送机器人路径规划方法。
技术介绍
[0002]强化学习是一种训练智能体在探索环境时学习最优策略以获得最大奖励的人工智能技术。但是经典的强化学习RL仍然存在一些缺陷,比如收敛慢、奖励稀疏、收敛至局部最优等问题。Q
‑
学习是强化学习中一种经典的算法,但在初始化过程中通常将Q值均设为等值或随机值,即在无先验知识的环境下学习,这使得算法收敛速度变慢。
[0003]LTL(Linear Temporal Logic,线性时态逻辑)是一种可以描述非马尔可夫的复杂规约的形式化语言。在智能体的多任务学习中引入LTL来设计任务规约,可以捕捉环境和任务的时态属性来表达复杂任务约束。LTL的综合策略可以用来编写强化学习的奖励函数,有效地训练人工因子。如何在复杂环境下合成LTL规约的策略,并将其作为顶层策略引导底层强化学习方法,这对于智能体多任务学习有着重要的理论意义和应用价值。
专利技术 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,包括步骤如下:S1,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值;S2,在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略作为顶层策略引导底层强化学习方法;S3,基于奖励自动机状态图的拓扑排序设计势能函数,并计算配送机器人每个状态的势能函数,将每个任务点赋予势能值;若配送机器人从高势能前往低势能,则赋予配送机器人负奖励;若配送机器人从低势能前往高势能,则赋予正奖励。2.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S1中,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约的具体实现步骤如下:S11,采用Strix工具作为LTL策略合成工具,将简化后的LTL公式转化为确定型奇偶自动机,并将确定型奇偶自动机组合为控制器与环境间的奇偶博弈;LTL公式的具体表达式如下:其中p为原子命题;表示不满足表示不满足表示同时满足和和表示满足或者满足或者满足表示不满足或者满足或者满足表示和都不满足;表示在满足之前,一直满足;表示在下一刻满足表示在下一刻满足表示总是满足表示总是满足表示最终满足并通过策略迭代算法计算控制器获得成功的策略,将成功的策略作为符合LTL规约的控制策略所述控制策略的形式可表示为:其中A表示的有限状态集合,a0表示初始状态,M表示有限终止状态集合,δ
a
表示状态转移函数,δ
i
表示状态奖励函数;S12,通过基于控制策略S定义带有势能的奖励自动机,来对配送机器人行为赋予奖励值,奖励自动机的定义为其中,A
′
表示一个有限状态集合,a0′
∈A
′
表示初始状态,表示接受状态集合,δ
a
′
∈A
′×2p
→
A
′
表示状态间的转移函数,表示带有转移函数的状态奖励函数,表示势能函数,其中A
′
=A,a
′0=a0,M
′
=M,δ
a
′
=δ
a
;当状态间转移函数得出的状态不属于接受状态集合时,则赋予配送机器人奖励为0,取值在0和之间;当状态间转移函数得出的状态属于接受状态集合时,则会赋予配送机器人连续奖励当状态间转移函数得出的状态属于接受状态集合时,则会赋予配送机器人连续奖励也取值
3.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S2中,添加奖励机基于控制策略的经验回放机制到Q
‑
学习中,具体实现步骤如下:S21,设配送机器人目前所处的奖励机状态为u,配送机器人采取了动作a,则配送机器人所处环境的状态从s转换为了s
技术研发人员:朱晨阳,朱金宇,蔡玉洁,孙广辉,陈缪杰,
申请(专利权)人:常州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。