一种基于强化学习的移动机器人路径规划方法技术

技术编号：23342126 阅读：41 留言：0更新日期：2020-02-15 03:29

本发明专利技术涉及一种基于强化学习的移动机器人路径规划方法，该方法采用预训练后的改进A*算法，在任意环境中进行路径规划，所述改进A*算法的预训练过程包括以下步骤：S1：获取路径的起点、目标点和路径所在的已知环境，初始化改进A*算法；S2：采用改进A*算法进行路径规划，计算并保存路径规划过程中的搜索点和奖励值；S3：基于每个搜索点及其与目标点间所有搜索点的奖励值，计算每个搜索点对应的长期回报，获取训练数据；S4：基于训练数据，更新强化学习算法，获取每个搜索点的修正值，更新改进A*算法中的引导函数；S5：重复步骤S2至S4，直到满足预设的停止条件。与现有技术相比，本发明专利技术具有路径规划速度快、规划结果更优，且稳定性高的优点。

A path planning method of mobile robot based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的移动机器人路径规划方法
本专利技术涉及移动机器人路径规划领域，尤其是涉及一种基于强化学习的移动机器人路径规划方法。
技术介绍
在移动机器人领域，路径规划一直是一大研究热点。机器人需要在已知环境的情况下，利用路径规划算法，在两点之间寻找一条可以到达的且最优的路径。其中Dijkstra算法是经典的寻路算法之一，该算法中，每个搜索节点被赋予一个属性g(n)，用以表示该节点距离起点的距离，通过不断的搜寻具有最小g(n)值的节点并更新其周围节点g(n)值的方式，Dijkstra算法能够找到两点之间的最短路径。该方法虽被广泛应用，但是该方法以搜索空间为代价，搜索耗费时间，不适合地图较大的场景，存在一定的局限性。如图2所示为Dijkstra算法寻找得到的路径，该搜寻路径是最优的，然而搜索耗费了较大的时间，不能满足机器人应用的实时性。针对Dijkstra算法耗时的缺点，A*算法通过引入引导函数的方式极大的减少了搜索空间，能够更快速的搜索到机器人的可行路径。如公式(1)所示，A*在g(n)的基础上，添加了当前节点到目标节点的引导函数h(n)，以二者的和f(n)作为各个节点的属性进行搜索和更新，使得搜索在考虑与起始节点距离的同时兼顾了向目标节点方向的引导。f(n)＝g(n)+h(n)(1)A*算法虽然通过引入引导函数的方式缩短了搜索时间，但由于其引导函数往往是人为设定的距离，例如曼哈顿距离，欧式距离等，因此对于两点之间存在障碍物的情况，A*算法往往会产生错误的引导，使得所得到的路径非最优，如图3所示为采...

【技术保护点】
1.一种基于强化学习的移动机器人路径规划方法，其特征在于，该方法采用预训练后的改进A*算法，在任意环境中进行路径规划，所述改进A*算法采用预建立的强化学习算法更新引导函数，所述改进A*算法的预训练过程包括以下步骤：/nS1：获取路径的起点、目标点和路径所在的已知环境，初始化改进A*算法；/nS2：基于路径的起点、目标点和路径所在的已知环境，采用当前的改进A*算法进行路径规划，计算并保存路径规划过程中每一次的搜索点和该搜索点的奖励值；/nS3：基于每个搜索点及其与目标点间所有搜索点的奖励值，计算每个搜索点对应的长期回报，获取训练数据；/nS4：基于训练数据，更新强化学习算法，并通过更新后的强化学习算法，获取每个搜索点对应的修正值，更新改进A*算法中的引导函数；/nS5：重复步骤S2至S4，直到满足预设的停止条件，获取预训练后的改进A*算法。/n

【技术特征摘要】
1.一种基于强化学习的移动机器人路径规划方法，其特征在于，该方法采用预训练后的改进A*算法，在任意环境中进行路径规划，所述改进A*算法采用预建立的强化学习算法更新引导函数，所述改进A*算法的预训练过程包括以下步骤：
S1：获取路径的起点、目标点和路径所在的已知环境，初始化改进A*算法；
S2：基于路径的起点、目标点和路径所在的已知环境，采用当前的改进A*算法进行路径规划，计算并保存路径规划过程中每一次的搜索点和该搜索点的奖励值；
S3：基于每个搜索点及其与目标点间所有搜索点的奖励值，计算每个搜索点对应的长期回报，获取训练数据；
S4：基于训练数据，更新强化学习算法，并通过更新后的强化学习算法，获取每个搜索点对应的修正值，更新改进A*算法中的引导函数；
S5：重复步骤S2至S4，直到满足预设的停止条件，获取预训练后的改进A*算法。

2.根据权利要求1所述的一种基于强化学习的移动机器人路径规划方法，其特征在于，所述改进A*算法中引导函数的表达式为：
h(n)*＝h(n)+π(n)
式中，h(n)*为改进A*算法下搜索点n的引导函数，n＝1,2,3,···,N,N为搜索点的总数，h(n)为传统A*算法下搜索点n的引导函数，π(n)为强化学习算法输出的搜索点n的修正值，其初始值通过对强化学习算法初始化设定。

3.根据权利要求1所述的一种基于强化学习的移动机器人路径规划方法，其特征在于，所述奖励值的计算表达式为：

式中，r(n)为搜索点n的奖励值，n＝1,2,3,···,N,N为搜索点的总数，path(Djisktra)为采用Dijkstra算法获得的最短路径的长度，path(A*(π))为采用当前的改进A...

【专利技术属性】
技术研发人员：刘成菊，孙晓娴，姚陈鹏，陈启军，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人