基于蚁群算法和多智能体Q学习的AGV路径规划方法和系统技术方案

技术编号:19388466 阅读:37 留言:0更新日期:2018-11-10 01:52
本发明专利技术公开了一种基于蚁群算法和多智能体Q学习的AGV路径规划方法和系统,提高了全局优化的能力,将多智能体Q学习引入AGV的路径规划研究中可以实现AGV在交互中学习如何避障,并且能够更好地发挥出AGV的自主性和学习能力。其技术方案为:根据静态环境利用栅格法对AGV作业环境进行建模,设置起始点和目标点;根据AGV的起始点和目标点坐标通过蚁群算法生成全局最优路径;AGV根据全局优化路径向目标点移动,当探测到最小距离内存在动态障碍物时,通过多智能体Q学习对应环境状态进行避障策略的选择,据此作出相应的避障动作,避障结束再返回原来的路径上继续运动。

AGV path planning method and system based on ant colony algorithm and multi-agent Q learning

The invention discloses an AGV path planning method and system based on ant colony algorithm and multi-agent Q-learning, improves the ability of global optimization, introduces multi-agent Q-learning into AGV path planning research, realizes AGV learning how to avoid obstacles in interaction, and can better play AGV's autonomy and learning ability. The technical scheme is as follows: modeling AGV working environment based on static environment using grid method, setting starting point and target point; generating global optimal path by ant colony algorithm according to the coordinates of starting point and target point of AGV; moving AGV to target point according to global optimal path, when dynamic obstacles exist in the smallest distance detected When the obstacle avoidance strategy is selected according to the environment state through multi-agent Q-learning, corresponding obstacle avoidance actions are made accordingly, and the obstacle avoidance ends and then returns to the original path to continue moving.

【技术实现步骤摘要】
基于蚁群算法和多智能体Q学习的AGV路径规划方法和系统
本专利技术涉及一种AGV路径规划技术,具体涉及动态环境下基于改进的蚁群算法和优化的多智能体Q学习的AGV(AutomatedGuidedVehicle,自动导引运输车)路径规划方法和系统。
技术介绍
路径规划是AGV规划调度中的重要问题,随着越来越多的AGV投入使用,带来了很多新的问题,比如动态变化的环境模型建立的问题;多AGV的路径规划以及避障的问题;多AGV系统的学习性、智能性的发挥问题。已有的AGV路径规划方法有群智能仿生算法,A*、D*算法等,这类单一的全局规划方法往往达不到全局最优,对环境的先验知识要求较高,需要占用较大的存储空间,遇到复杂的动态的环境,这类规划方法的效率会大幅下降。而且这些算法不能体现和发挥AGV系统的智能性和学习能力,缺乏AGV与动态环境的交互和AGV之间的联系。蚁群算法具有强大的鲁棒性,良好的分布式计算,且它的机制是蚂蚁找到巢与食源之间可行的最短路径,与路径规划的物理过程相吻合,这使得蚁群算法很适合应用在路径规划中,然而典型的蚁群算法容易陷入局部最优解,收敛速度慢。目前对于蚁群算法的改进主要有两个方面,第一个策略集中在蚁群算法本身,例如,重新定义转移概率并建立新的信息素更新方法。第二个策略是将传统的蚁群算法与其他智能算法相结合。例如,遗传算法可以用于获得基于蚁群算法执行优化的初始解。或者将混沌机制加入蚁群算法,提高多样性,跳出局部最优。而后者需要更大的时间空间代价。人工智能的一个重要目标就是让agent能够拥有自主学习的能力,能够通过与复杂的未知环境交互来获得经验,作为基于行为的移动机器人路径规划,强化学习在路径规划中的应用得到了广泛的关注。其中Q学习算法作为一种强化学习算法,是从环境状态到动作映射的学习,Agent根据最大奖励值采取最优的策略,Q学习算法原理易懂,便于结合实际,适合用于未知环境下的AGV路径规划研究,但是在一个多智能体系统下的智能体不只一个,所以在应用Q学习时需要区别于单智能体Q学习,多智能体需要考虑其他智能体的决策和影响,当环境复杂未知,智能体数量过多时,整个状态空间的维数会迅速增长,出现维度灾难。因此如何提高多智能体Q学习学习效率,降低状态空间的复杂性需要得到解决。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种基于蚁群算法和多智能体Q学习的AGV路径规划方法和系统,提高了全局优化的能力,将多智能体Q学习引入AGV的路径规划研究中可以实现AGV在交互中学习如何避障,并且能够更好地发挥出AGV的自主性和学习能力。本专利技术的技术方案为:本专利技术揭示了一种基于蚁群算法和多智能体Q学习的AGV路径规划方法,包括:步骤一:根据静态环境利用栅格法对AGV作业环境进行建模,根据AGV作业任务设置起始点和目标点;步骤二:根据AGV的起始点和目标点坐标通过蚁群算法生成AGV的全局最优路径;步骤三:AGV根据全局优化路径向目标点移动,当探测到最小距离内存在包括其他AGV在内的动态障碍物时,通过多智能体Q学习对应环境状态进行避障策略的选择,据此作出相应的避障动作,避障结束再返回原来的路径上继续运动。根据本专利技术的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例,在步骤二中,蚁群算法中的适应度函数为其中num为AGV走过的栅格数,D为AGV所走路径长度,k表示第k只蚂蚁。根据本专利技术的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例,在步骤二中,在蚂蚁k发生位置转移时,蚁群算法中的启发式因子为其中ηij为位置点i上的蚂蚁选择下一步到相邻位置点j的启发式因子,dij是相邻两位置点i和位置点j的距离,dje是位置点j到目标点的距离;其中i和j表示栅格位置,xj是位置点j的横坐标,yj是位置点j的纵坐标,(xend,yend)是终点坐标。根据本专利技术的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例,在步骤二中,蚁群算法中的信息素更新策略为:τij(t+n)=(1-ρ)Δτij(t)+Δτij(t)其中τij(t+n)是t+n时刻(i,j)处的信息素量,Δτij(t)是t时刻(i,j)处的信息素增量,1-ρ表示残留因子,是蚂蚁k在t时刻经过路径(i,j)留下的信息素,m是指蚁群种群数量。根据本专利技术的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例,在步骤二中,蚁群算法中的信息素挥发系数随着迭代次数的增加而自适应的改变,自适应信息素挥发系数的更新规则为:ρ*=[1-e(n-N)/N]ρ其中ρ是信息素挥发系数,n是当前的迭代次数,N是迭代的总数。根据本专利技术的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例,步骤二中通过蚁群算法获得当前AGV的全局最优路径的步骤进一步包括:步骤1:根据蚁群系统的转移概率公式计算每只蚂蚁到达每个节点的概率;步骤2:一次迭代后更新信息素剩余信息,更新t+n时刻路径path(i,j)上的信息素τij(t+n)和信息素增量θ是用于调整每条路径上的信息素量的衰减系数以表示每条路径上的信息素递减,是调整后的信息素增量,是蚂蚁k经过路径(i,j)时留下的信息素,在一轮循环过后所有的路径长度都被记录在矩阵中,计算这一轮每条路径的平均值步骤3:判断这一轮的每条路径是否大于平均值若存在比平均值小的路径则调整最优路径,否则跳转到步骤4;步骤4:输出这一轮的最优解,更新全局最优路径;步骤5:判断当前的最优路径迭代次数n是否在最大迭代次数N之内,若是则跳转到步骤6,否则自适应调整信息素挥发速率ρ*=[1-e(n-N)/N]ρ,ρ是信息素挥发系数;步骤6:判断循环是否结束,若是则跳转到步骤7,若否则跳转到步骤1;步骤7:得到当前AGV的全局最优路径。根据本专利技术的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例,步骤三的多智能体Q学习的过程包括:初始化每一智能体的状态集、动作集,初始化Q(s,a)表,设置参数,其中Q(s,a)表示智能体的状态和动作的矩阵;通过决策公式对应状态来选择执行动作策略,观察下一状态的任何阶段和环境信息,选择适当的回报模式获得回报值,同时留下该智能体的信息素;更新Q值和信息素,考察是否达到结束标准。根据本专利技术的基于蚁群算法和多智能体Q学习的AGV路径规划方法的一实施例,决策公式为:其中Pss′为从状态s到s′的转移概率,γ表示折扣因子。本专利技术还揭示了一种基于蚁群算法和多智能体Q学习的AGV路径规划系统,包括:建模模块,根据静态环境利用栅格法对AGV作业环境进行建模,根据AGV作业任务设置起始点和目标点;路径生成模块,根据AGV的起始点和目标点坐标通过蚁群算法生成AGV的全局最优路径;避障控制模块,AGV根据全局优化路径向目标点移动,当探测到最小距离内存在包括其他AGV在内的动态障碍物时,通过多智能体Q学习对应环境状态进行避障策略的选择,据此作出相应的避障动作,避障结束再返回原来本文档来自技高网
...

【技术保护点】
1.一种基于蚁群算法和多智能体Q学习的AGV路径规划方法,其特征在于,包括:步骤一:根据静态环境利用栅格法对AGV作业环境进行建模,根据AGV作业任务设置起始点和目标点;步骤二:根据AGV的起始点和目标点坐标通过蚁群算法生成AGV的全局最优路径;步骤三:AGV根据全局优化路径向目标点移动,当探测到最小距离内存在包括其他AGV在内的动态障碍物时,通过多智能体Q学习对应环境状态进行避障策略的选择,据此作出相应的避障动作,避障结束再返回原来的路径上继续运动。

【技术特征摘要】
1.一种基于蚁群算法和多智能体Q学习的AGV路径规划方法,其特征在于,包括:步骤一:根据静态环境利用栅格法对AGV作业环境进行建模,根据AGV作业任务设置起始点和目标点;步骤二:根据AGV的起始点和目标点坐标通过蚁群算法生成AGV的全局最优路径;步骤三:AGV根据全局优化路径向目标点移动,当探测到最小距离内存在包括其他AGV在内的动态障碍物时,通过多智能体Q学习对应环境状态进行避障策略的选择,据此作出相应的避障动作,避障结束再返回原来的路径上继续运动。2.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法,其特征在于,在步骤二中,蚁群算法中的适应度函数为其中num为AGV走过的栅格数,D为AGV所走路径长度,k表示第k只蚂蚁。3.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法,其特征在于,在步骤二中,在蚂蚁k发生位置转移时,蚁群算法中的启发式因子为其中ηij为位置点i上的蚂蚁选择下一步到相邻位置点j的启发式因子,dij是相邻两位置点i和位置点j的距离,dje是位置点j到目标点的距离;其中i和j表示栅格位置,xj是位置点j的横坐标,yj是位置点j的纵坐标,(xend,yend)是终点坐标。4.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法,其特征在于,在步骤二中,蚁群算法中的信息素更新策略为:τij(t+n)=(1-ρ)Δτij(t)+Δτij(t)其中τij(t+n)是t+n时刻(i,j)处的信息素量,Δτij(t)是t时刻(i,j)处的信息素增量,1-ρ表示残留因子,是蚂蚁k在t时刻经过路径(i,j)留下的信息素,m是指蚁群种群数量。5.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法,其特征在于,在步骤二中,蚁群算法中的信息素挥发系数随着迭代次数的增加而自适应的改变,自适应信息素挥发系数的更新规则为:ρ*=[1-e(n-N)/N]ρ其中ρ是信息素挥发系数,n是当前的迭代次数,N是迭代的总数。6.根据权利要求1所述的基于蚁群算法和多智能体Q学习的AGV路径规划方法,其特征在于,步骤二中通过蚁群算法获得当前AGV的全局最优路径的步骤进一步包括:步骤1:根据蚁群系统的转移概率公式计算每只蚂蚁到达每个节点的概率;步骤2:一次迭代后更新信息素剩余信息,更新t+n时刻路径path(i,j)上...

【专利技术属性】
技术研发人员:英春谭书华李娜雷蕾孙知信孙哲
申请(专利权)人:圆通速递有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1