一种基于信息熵回报策略在部分可观环境的在线规划方法技术

技术编号：39980515 阅读：7 留言：0更新日期：2024-01-09 01:29

本发明专利技术涉及一种基于信息熵回报策略在部分可观环境的在线规划方法。用于机器人执行任务时的在线快速规划，在部分可观测环境下，现有POMDP在线规划方法存在采样盲目性和搜索效率局限性，移动机器人无法快速执行规划任务；机器人结合状态分布和高斯分布建立采样模块，选取采样模块中权重最佳的N个状态前向构建信念树，通过基于信息熵回报设计的回报函数，指导机器人的搜索方向。最后对信念树自上而下的扩展叶子节点并更新节点边界值（效用上、下限值），自下而上的更新父节点边界值，直到信念树根节点的不确定性为一个极小值的时候，终止信念树的探索；POMDP算法是在线POMDP规划算法IE‑DESPOT；本发明专利技术性能优于DESPOT和POMCP、LB‑DESPOT，在收敛速度和策略质量上具有优势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器人，涉及一种基于信息熵回报策略在部分可观环境的在线规划方法。

技术介绍

1、长期以来，利用机器人替代或协助人类执行搜索和救援任务是机器人
中一个重要的研究方向。然而，在现实环境下，复杂多变的作业环境、机器人自身传感器的局限和自身控制的不完美等问题的存在，导致机器人无法准确获取自身状态，即环境是部分可观测的。这就要求机器人需要具有自主学习和决策的能力，以应对部分可观测环境带来的不确定因素。

2、运动规划作为机器人的关键技术之一，也是机器人执行任务的根本保障，其旨在让机器人在满足一定约束条件的情况下，寻找从起始目标到终止目标的无碰撞安全路径。依据现有的机器人运动规划算法特性，可将运动规划算法分为基于图搜索的规划算法、基于采样的规划算法、基于群智能的规划算法和基于强化学习的规划算法。其中基于强化学习的规划算法不依赖环境模型和先验知识，其基本原理在于智能体通过与环境的不断交互学习，获取反馈信息，优化选择策略，最终达到奖励最大化或实现给定目标。因此，针对部分可观测环境下的运动规划问题，利用强化学习自主决策和学习的能力，引导机器人在不确定的环境下，依靠环境状态对机器人自身动作的反应，寻找到一条奖励最大化的路径，实现机器人在部分可观测环境下的运动规划。

3、在强化学习中，智能体(agent)通过与环境的交互获得对智能体当前动作的奖励，并指导下一步动作的生成以获取更大的奖励。在数学上，可以用马尔可夫决策过程(mdp)和部分可观察马尔可夫决策过程(pomdp)表示。其中马尔可夫决策过程主要关注离散的

4、因此，针对部分可观测环境下的运动规划问题，研究者们常采用基于部分可观察马尔可夫决策过程模型的强化学习算法对机器人进行在线的运动规划。在部分可观察马尔可夫决策过程模型中，基于值迭代和基于树搜索两类部分可观察马尔可夫决策过程在线规划算法是研究的重点。其中基于值迭代的部分可观察马尔可夫决策过程在线规划算法，通过基于点的备份来估计值函数。这一方法在处理中小型任务时，面对有限的采样置信集合下能够取得良好的规划效果。但基于值迭代的部分可观察马尔可夫决策过程算法在面对复杂的现实环境时，较长的信息收集操作和较慢的规划效率使得这一算法难以应对部分可观测环境下的实时不确定性，因此，这一算法难以应用于实际环境中的移动机器人任务。基于树搜索的部分可观察马尔可夫决策过程在线规划算法则是通过使用蒙特卡洛模拟来评估搜索树中的节点。现有的大多数部分可观察马尔可夫决策过程在线规划算法是基于树搜索的，在构建搜索树的策略上各有不同。就目前最先进的两个在线规划算法部分可观测的蒙特卡洛规划(pomcp)和despot而言，都是使用蒙特卡洛方法和置信上限算法分别进行对信念节点的更新和构建信念树。但目前常用的部分可观察马尔可夫决策过程模型的在线规划算法采用随机采样的方法对状态粒子进行采样以进行效益不搜索，这种采样方式具有一定的盲目性并且难以保证采样获得的粒子最优性。同时，现有的部分可观察马尔可夫决策过程在线规划算法在探索未知环境或部分可观测环境时，常采用稀疏奖励方案，这就导致当原有探索方向受到阻碍时，机器人难以通过已有信息快速寻找到高质量的搜索方向，影响搜索效率。

5、我们在despot基本框架上引入对偏置采样策略和基于信息熵的回报函数计算策略，提出ie-despot在线规划算法。通过将在despot算法初始采样阶段，用结合状态分布和高斯分布建立的采样模块替换原有的随机采样，并选取采样模块中权重最佳的n个状态前向构建信念树，有效减少了采样的盲目性。并通过基于当前信念节点状态信息的信息熵回报设计的回报函数，在搜索树扩展的时候指导搜索方向，提升搜索效率。最后对信念树自上而下的扩展叶子节点并更新节点边界值(效用上、下限值)，自下而上的更新父节点边界值，直到信念树根节点的不确定性(节点上、下线之差)为一个极小值的时候，终止信念树的探索。

技术实现思路

1、本专利技术的目的在于提供一种基于信息熵回报策略在部分可观环境的在线规划方法，该方法克服了在环境部分可观情况下，强化学习在在线规划算法的不足。算法在收敛速度和策略质量上具有优势。

2、为实现上述目的，本专利技术的技术方案是：一种基于信息熵回报策略的在部分可观测环境下的在线快速规划方法，用于机器人执行任务时的在线快速规划，其特征表现如下：部分可观测环境下，现有部分可观察马尔可夫决策过程在线规划方法存在采样盲目性和搜索效率局限性，移动机器人无法快速执行规划任务；机器人结合状态分布和高斯分布建立采样模块，选取采样模块中权重最佳的n个状态前向构建信念树，通过基于信息熵回报设计的回报函数，指导机器人的搜索方向。最后对信念树自上而下的扩展叶子节点并更新节点边界值(效用上、下限值)，自下而上的更新父节点边界值，直到信念树根节点的不确定性(节点上、下线之差)为一个极小值的时候，终止信念树的探索。

3、上述所述一种基于信息熵回报策略的在部分可观测环境下的在线快速规划方法，即在线部分可观察马尔可夫决策过程规划算法ie-despot，具体包括如下步骤：

4、步骤s1、在初始信念中，结合初始状态分布b(s)和高斯分布ψ(s)计算初始信念中每个状态s的权重ω(φ)，依据权重选取最大的n个状态粒子构建状态集合φn；

5、步骤s2、以当前信念b为根节点，基于状态合集φn，构建信念树d，初始化当前信念b实验值上界u(b)、下界l(b)和效用值上界μ(b)、下界l(b)；

6、步骤s3、计算机器人即智能体在当前信念的效用值界限ε(b)＝μ(b)-l(b)，并判断当前效用值界限ε(b)是否大于给定目标值ε0，或运行时间t是否小于给定的运行时间最大值tmax，若条件满足，执行步骤s4，否则，执行步骤s6；

7、步骤s4、判断当前信念b的节点深度δ(b)和不确定性是否满足给定要求，若满足，扩展新节点，初始化新节点的经验值上界u(b')、下界l0(b')和效用值上界μ(b')、下界l(b')；

8、步骤s5、执行entropy(b,a)计算基于当前节点的信息熵回报，引导信念树的拓展方向；选取最佳动作a*和最佳观测z*构建新的子信念节点，判断信念树d的深度，若深度大于设置的最大深度，则信念节点的上、下限由默认策本文档来自技高网...

【技术保护点】

1.一种基于信息熵回报策略在部分可观环境的在线规划方法，用于机器人执行任务时的在线快速规划，其特征在于，机器人结合状态分布和高斯分布建立采样模块，选取采样模块中权重最佳的N个状态前向构建信念树，通过基于信息熵回报设计的回报函数，指导机器人的搜索方向，最后对信念树自上而下的扩展叶子节点并更新节点边界值，自下而上的更新父节点边界值，直到信念树根节点的不确定性为一个极小值的时候，终止信念树的探索。

2.根据权利要求1所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，该方法具体实现步骤如下：

3.根据权利要求2所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，步骤S1的具体实现形式为：在初始信念中，结合初始信念分布b(s)和高斯分布Ψ(s)，对初始信念中每个状态粒子s的权重进行更新；选取其中权重最佳的N个状态粒子构成场景集合Φb，构建信念树D；

4.根据权利要求3所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，步骤S2的具体实现形式为：以采样获得的N个场景的平均折扣回报计算经验值其中Vπ,φ

5.根据权利要求4所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，步骤S5中计算回报的ENTROPY(b,a)具体实现形式为：计算由信念b处执行动作a获得的回报值ρ(b,a)：

6.根据权利要求5所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，步骤S5的具体实现方式为：依据信念树当前信念b执行动作a计算回报，引导信念树扩展方向；基于回报ρ'(b,a)和子节点的初始效用上限值选择最佳动作a*：

7.根据权利要求6所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，步骤S6中操作BACKUP(D,b)具体实现方式为：信念树终止扩展并更新节点b的边界值时，备份从叶子节点到根节点路径上节点的效用值上限μ(b)、下限l(b)和经验值上限U(b)：

...

【技术特征摘要】

1.一种基于信息熵回报策略在部分可观环境的在线规划方法，用于机器人执行任务时的在线快速规划，其特征在于，机器人结合状态分布和高斯分布建立采样模块，选取采样模块中权重最佳的n个状态前向构建信念树，通过基于信息熵回报设计的回报函数，指导机器人的搜索方向，最后对信念树自上而下的扩展叶子节点并更新节点边界值，自下而上的更新父节点边界值，直到信念树根节点的不确定性为一个极小值的时候，终止信念树的探索。

2.根据权利要求1所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，该方法具体实现步骤如下：

3.根据权利要求2所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，步骤s1的具体实现形式为：在初始信念中，结合初始信念分布b(s)和高斯分布ψ(s)，对初始信念中每个状态粒子s的权重进行更新；选取其中权重最佳的n个状态粒子构成场景集合φb，构建信念树d；

4.根据权利要求3所述的一种基于信息熵回报策略在部分可观环境的在线规划方法，其特征在于，步骤s2的具体实现...

【专利技术属性】
技术研发人员：陈彦杰，韩峰，刘江蒋，范俊玮，刘鑫成，曾国航，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人