基于部分感知马氏决策过程的机器人最优路径规划方法技术

技术编号：19212921 阅读：33 留言：0更新日期：2018-10-20 05:48

本发明专利技术公开了基于部分感知马氏决策过程的机器人最优路径规划方法，机器人寻找到达目标位置的最优路径，以POMDP模型和SARSOP算法为基础，使用GLS搜索方法作为搜索时的启发式条件，在连续状态大规模观察空间问题中，使用本发明专利技术可避免早期经典算法使用基于试验作为启发式条件重复更新多条相似路径中，更新信念状态上下界的次数，且不影响最终的最优策略，提高算法效率，在相同时间内，机器人能够火车更优的策略，找到更优的路径。

全部详细技术资料下载

【技术实现步骤摘要】
基于部分感知马氏决策过程的机器人最优路径规划方法
本专利技术涉及机器人控制领域，具体涉及一种基于部分感知马氏决策过程的机器人最优路径规划方法。
技术介绍
机器学习（MachineLearning，ML）是一门研究怎样模拟或实现人类的学习行为，不断重组、完善自身原有知识结构的学科。强化学习则是机器学习重要的一个研究分支，它是一种通过智能体（Agent）与环境的交互，将状态映射到动作，从而获得最大长期累积折扣奖赏的机器学习方法。通常强化学习采用马尔科夫决策过程（MarkovDecisionProcesses，MDPs）作为模型，即环境是完全可观察的。然而在现实世界中，不确定性是普遍存在的。例如Agent的传感器，其自身存在局限：(1)传感器只能探测局部有限的环境，Agent无法准确区分探测范围外的不同的状态；(2)传感器自身存在缺陷，探测结果存在噪声，Agent的传感器对同一状态进行探测时可能得到不同的结果。例如在机器人足球比赛RoboCup中，Agent的视觉系统包含可视角度、准确可视距离、模糊可视距离和不可视距离。仅当观测目标在可视角度和准确可视距离范围内，Agent才能得到它的准确状态，其余情况下只能得到一个模糊的观察。Agent在复杂环境中决策时（例如无人驾驶），应该考虑不完美的控制、传感器的噪声和不完整的环境知识等不确定性因素。部分可观察马尔科夫决策过程（PartiallyObservableMarkovDecisionProcesses，POMDPs）为建模部分可观察随机环境中Agent的规划（或序列决策）问题和学习问题提供了一个通用的模型。过去十...

【技术保护点】
1.一种基于部分感知马氏决策过程的机器人最优路径规划方法，其特征在于，包括如下步骤：S1、初始化模型和环境，设置环境的状态迁移函数

【技术特征摘要】
1.一种基于部分感知马氏决策过程的机器人最优路径规划方法，其特征在于，包括如下步骤：S1、初始化模型和环境，设置环境的状态迁移函数，奖赏函数，观察函数，其中为状态集合，为动作集合，为观察集合，设置折扣率为0.95，设置机器人的位置，设置初始信念状态的初始值：下界的标准临界值和上界的标准临界值，其中是预先指定的阈值标准，计算初始信念状态的上界值和下界值，转入S2；S2、将初始信念状态置为当前信念状态，转入S3；S3、预测当前信念状态的最优值，转入S4；S4、判断当前信念状态是否满足如下条件：，且，其中为当前信念状态的深度，如满足，则转入S13，如不满足，则转入S5；S5、计算当前信念状态下，每个动作的值函数下界值，选取这些下界值中的最大值，更新当前信念状态的上界的标准临界值和下界的标准临界值，转入S6；S6、计算最优动作和对初始信念状态贡献最大的观察，并记录观察的总数count，转入S7；S7、顺序选择观察集中的观察，若count不为0，转入S8，否则转入S11；S8、count值减少1，转入S9；S9、判断当前选择的观察是否有探索的价值，若是，则转入S10，若否，则转入S7；S10、计算下一信念状态的上界的标准临界值和下界的标准临界值，获得下一信念状态的上界值和下界值，转入S7；S11、更新当前信念状态的上界值和下界...

【专利技术属性】
技术研发人员：刘全，朱斐，钱炜晟，章宗长，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人