【技术实现步骤摘要】
一种改进的Dyna-Q学习路径规划算法
本专利技术涉及机器人路径规划
,具体涉及一种改进的Dyna-Q学习路径规划算法。
技术介绍
路径规划技术可以引导移动机器人从起始位置避开障碍物到达目标位置,是实现移动机器人自主导航的关键。根据对环境信息的掌握程度不同,路径规划分为全局路径规划和局部路径规划。全局路径规划是在已知的环境中规划出移动机器人的运动路径,常用的全局路径规划算法有可视图、格栅法、拓扑法等;而局部路径规划的环境信息未知或者是部分已知,比较广泛应用的算法有神经网络法、人工势场法、强化学习算法等。在众多的路径规划算法中,强化学习算法因其无需对环境进行建模而得到广泛的应用。强化学习算法主要通过智能体不断与环境交互获得外部环境信息实现多步决策问题的优化求解。根据是否已知环境模型强化学习可分为有模型强化学习和无模型强化学习。Q-learning是一种典型的无模型强化学习算法。Q-learning算法通过构建Q表存储状态动作值,智能体在与环境交互的过程中获得奖励从而更新Q值。基于模型的强化学习算法 ...
【技术保护点】
1.一种改进的Dyna-Q学习路径规划算法,其特征在于:包括以下步骤:/nS1.输入环境信息:起始位置和目标位置;/nS2.设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);/nS3.初始化Q表;/nS4.循环;/nS5.初始化状态S;/nS6.采用ε-贪婪策略选择动作A;/nS7.执行所选动作到达下一状态S’并获得相应奖励R;/nS8.更新Q值;/nS9.用R和S’更新模型M(s,a);/nS10.n次模拟;/nS11.每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;/nS12.基于模型M(S,A)得到奖励R和下一状态S’;/nS 13.再次更新Q值;/nS1 ...
【技术特征摘要】
1.一种改进的Dyna-Q学习路径规划算法,其特征在于:包括以下步骤:
S1.输入环境信息:起始位置和目标位置;
S2.设置参数ɑ、γ、ε、ζ,初始化模型M(s,a);
S3.初始化Q表;
S4.循环;
S5.初始化状态S;
S6.采用ε-贪婪策略选择动作A;
S7.执行所选动作到达下一状态S’并获得相应奖励R;
S8.更新Q值;
S9.用R和S’更新模型M(s,a);
S10.n次模拟;
S11.每次模拟都随机选择一个之前出现过的状态S以及该状态下的动作A;
S12.基于模型M(S,A)得到奖励R和下一状态S’;
S13.再次更新Q值;
S14.达到一定步数或一定收敛条件,终止;
其中,S代表环境状态;A代表智能体所采取的动作;R代表智能体在状态S采取动作A所获得的奖励。
2.根据权利要求1所述的改进的Dyna-Q学习路径规划算法,其特征在于:步骤S1具体过程如下:对移动机器人获得的环境图像进行分割处理,将图像分割成20×20的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,机器人不能经过;如果格栅中发现目标点,则定于该格栅为目标位置,为移动机器人最终要到达的位置;其他的栅格定义为无障碍物的栅格,机器人可以经过。
3.根据权利要求1所述的引入人工势场的强...
【专利技术属性】
技术研发人员:石振,王保华,王科银,张建辉,
申请(专利权)人:湖北汽车工业学院,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。