当前位置: 首页 > 专利查询>苏州大学专利>正文

基于部分感知马氏决策过程的机器人最优路径规划方法技术

技术编号:19212921 阅读:33 留言:0更新日期:2018-10-20 05:48
本发明专利技术公开了基于部分感知马氏决策过程的机器人最优路径规划方法,机器人寻找到达目标位置的最优路径,以POMDP模型和SARSOP算法为基础,使用GLS搜索方法作为搜索时的启发式条件,在连续状态大规模观察空间问题中,使用本发明专利技术可避免早期经典算法使用基于试验作为启发式条件重复更新多条相似路径中,更新信念状态上下界的次数,且不影响最终的最优策略,提高算法效率,在相同时间内,机器人能够火车更优的策略,找到更优的路径。

【技术实现步骤摘要】
基于部分感知马氏决策过程的机器人最优路径规划方法
本专利技术涉及机器人控制领域,具体涉及一种基于部分感知马氏决策过程的机器人最优路径规划方法。
技术介绍
机器学习(MachineLearning,ML)是一门研究怎样模拟或实现人类的学习行为,不断重组、完善自身原有知识结构的学科。强化学习则是机器学习重要的一个研究分支,它是一种通过智能体(Agent)与环境的交互,将状态映射到动作,从而获得最大长期累积折扣奖赏的机器学习方法。通常强化学习采用马尔科夫决策过程(MarkovDecisionProcesses,MDPs)作为模型,即环境是完全可观察的。然而在现实世界中,不确定性是普遍存在的。例如Agent的传感器,其自身存在局限:(1)传感器只能探测局部有限的环境,Agent无法准确区分探测范围外的不同的状态;(2)传感器自身存在缺陷,探测结果存在噪声,Agent的传感器对同一状态进行探测时可能得到不同的结果。例如在机器人足球比赛RoboCup中,Agent的视觉系统包含可视角度、准确可视距离、模糊可视距离和不可视距离。仅当观测目标在可视角度和准确可视距离范围内,Agent才能得到它的准确状态,其余情况下只能得到一个模糊的观察。Agent在复杂环境中决策时(例如无人驾驶),应该考虑不完美的控制、传感器的噪声和不完整的环境知识等不确定性因素。部分可观察马尔科夫决策过程(PartiallyObservableMarkovDecisionProcesses,POMDPs)为建模部分可观察随机环境中Agent的规划(或序列决策)问题和学习问题提供了一个通用的模型。过去十年中,POMDP规划问题的研究取得令人瞩目的成果。这些研究成果,在启发式搜索阶段都采用基于试验的异步值迭代算法,例如HSVI2、SARSOP和FSVI等。这些算法在向前搜索时,只搜索具有最大价值的结点。然而,基于试验的搜索每次都选择最优的动作和观察,未考虑其它与最优观察非常接近并对未来算法性能有着重要影响的观察。在大规模观察空间问题,其算法的性能较差。
技术实现思路
本专利技术的专利技术目的是提供一种基于部分感知马氏决策过程的机器人最优路径规划方法,减少在连续状态、大规模观察空间问题中,算法在相似搜索路径的中的更新次数,从而节约计算时间,调高算法的效率。效率的提高,可以让机器人的相同的时间内,获得更优的路径。在大规模观察空间问题中,某些非常接近最大价值的节点,其对未来算法性能的也很起着非常重要的作用。在某个信念状态的更新次数如果可以比其它信念状态处的更多,那么这种更新方法称为异步值迭代方法。在可达信念空间中,值函数在处的准确性通常比在其它信念状态处的更重要。因此在POMDP问题中,可以使用异步值迭代方法。基于试验的搜索是一种经典的异步值迭代方法,它每次搜索都从初始信念状态出发,搜索到叶子信念状态,并获得一条没有分支的路径。在搜索的过程中,Agent根据不同的启发式条件,在当前信念状态处选择相应的动作和观察,并获得对应的下一个信念状态。把每一次搜索的路径相结合,形成一棵可达信念树。这样可以让Agent只在可达的信念空间中搜索,近似的表示无限的信念空间,使得连续状态问题可以求解。因此,选择更好的启发式条件,可以使得搜索的可达信念空间更加接近真实的信念空间,并且具有更好的性能。HSVI2使用的启发式条件是通过仿真,获得一个尽量多的、具有代表性的的可达信念树。SARSOP则是在HSVI2的可达信念树的基础上,选择更优的启发式条件,使得其仿真的过程中,更加接近最优的策略,从而获得一棵更具有代表性的最优可达信念树。针对连续状态、大规模观察空间的部分可观察马氏决策问题中,基于试验的搜索算法的局限性,本专利技术采用银杏叶搜索算法(GingkoLeafSearch,GLS),在向前搜索阶段,不仅搜索最有价值的信念状态,而且自适应的搜索与最有价值的信念状态非常接近的信念状态。在不影响值函数更新效果的情况下,GLS减少信念状态更新的次数,减少更新时间,提高算法效率。为实现上述专利技术目的,本专利技术提供以下的技术方案:一种基于部分感知马氏决策过程的机器人最优路径规划方法,包括如下步骤:S1、初始化模型和环境,设置环境的状态迁移函数,奖赏函数,观察函数,其中为状态集合,为动作集合,为观察集合,设置折扣率为0.95,设置机器人的位置,设置初始信念状态的初始值:下界的标准临界值和上界的标准临界值,其中是预先指定的阈值标准,计算初始信念状态的上界值和下界值,转入S2;S2、将初始信念状态置为当前信念状态,转入S3;S3、预测当前信念状态的最优值,转入S4;S4、判断当前信念状态是否满足如下条件:,且,其中为当前信念状态的深度,如满足,则转入S13,如不满足,则转入S5;S5、计算当前信念状态下,每个动作的值函数下界值,选取这些下界值中的最大值,更新当前信念状态的上界的标准临界值和下界的标准临界值,转入S6;S6、计算最优动作和对初始信念状态贡献最大的观察,并记录观察的总数count,转入S7;S7、顺序选择观察集中的观察,若count不为0,转入S8,否则转入S11;S8、count值减少1,转入S9;S9、判断当前选择的观察是否有探索的价值,若是,则转入S10,若否,则转入S7;S10、计算下一信念状态的上界的标准临界值和下界的标准临界值,获得下一信念状态的上界值和下界值,转入S7;S11、更新当前信念状态的上界值和下界值,转入S12;S12、选择最优动作进入下一信念状态,将下一信念状态置为当前信念状态,转入S3;S13、获得最优策略,根据最优策略获得机器人的最优路径。上述技术方案中,S2中,初始信念状态的下界值采用盲策略计算,初始信念状态的上界值采用快速通知约束方法计算。上述技术方案中,S5中,当前信念状态的下界的标准临界值采用如下公式计算:,当前信念状态的下界的标准临界值采用如下公式计算:,其中表示每个动作的值函数下界值中的最大值。上述技术方案中,S6中,最优动作采用如下公式计算:,最优观察采用如下公式进行计算:,其中是信念状态处的上下界之差。上述技术方案中,S9中,判断当前选择的观察是否具有探索价值的标准为,其中为阈值函数。上述技术方案中,S10中,下一信念状态上界标准临界值的计算方法为,下一信念状态下界标准临界值的计算方法为,其中和分别是当前信念状态的上界标准临界值和下界标准临界值。由于上述技术方案运用,本专利技术与现有技术相比具有以下优点:本专利技术基于部分可观察马氏决策过程,机器人寻找到达目标位置的最优路径,以POMDP模型和SARSOP算法为基础,使用GLS搜索方法作为搜索时的启发式条件。在连续状态大规模观察空间问题中,使用本专利技术可避免早期经典算法使用基于试验作为启发式条件重复更新多条相似路径中,更新信念状态上下界的次数,且不影响最终的最优策略,提高算法效率,在相同时间内,机器人能够获得更优的策略,找到更优的路径。附图说明图1为本专利技术环境的布局示意图。图2为本专利技术某次搜索获得的搜索路径形成的搜索树。图3为本专利技术的工作流程图。具体实施方式下面结合本专利技术的原理、附图以及实施例对本专利技术进一步描述参见图1所示,扫地机器人在右边的客厅内,它的任务是打扫左边的卧室,根据房间的布置,它需要绕过餐桌并本文档来自技高网
...

【技术保护点】
1.一种基于部分感知马氏决策过程的机器人最优路径规划方法,其特征在于,包括如下步骤:S1、初始化模型和环境,设置环境的状态迁移函数

【技术特征摘要】
1.一种基于部分感知马氏决策过程的机器人最优路径规划方法,其特征在于,包括如下步骤:S1、初始化模型和环境,设置环境的状态迁移函数,奖赏函数,观察函数,其中为状态集合,为动作集合,为观察集合,设置折扣率为0.95,设置机器人的位置,设置初始信念状态的初始值:下界的标准临界值和上界的标准临界值,其中是预先指定的阈值标准,计算初始信念状态的上界值和下界值,转入S2;S2、将初始信念状态置为当前信念状态,转入S3;S3、预测当前信念状态的最优值,转入S4;S4、判断当前信念状态是否满足如下条件:,且,其中为当前信念状态的深度,如满足,则转入S13,如不满足,则转入S5;S5、计算当前信念状态下,每个动作的值函数下界值,选取这些下界值中的最大值,更新当前信念状态的上界的标准临界值和下界的标准临界值,转入S6;S6、计算最优动作和对初始信念状态贡献最大的观察,并记录观察的总数count,转入S7;S7、顺序选择观察集中的观察,若count不为0,转入S8,否则转入S11;S8、count值减少1,转入S9;S9、判断当前选择的观察是否有探索的价值,若是,则转入S10,若否,则转入S7;S10、计算下一信念状态的上界的标准临界值和下界的标准临界值,获得下一信念状态的上界值和下界值,转入S7;S11、更新当前信念状态的上界值和下界...

【专利技术属性】
技术研发人员:刘全朱斐钱炜晟章宗长
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1