当前位置: 首页 > 专利查询>广州大学专利>正文

AGV小车导航方法、装置、系统、介质和设备制造方法及图纸

技术编号:21297721 阅读:20 留言:0更新日期:2019-06-12 07:15
本发明专利技术公开了一种AGV小车导航方法、装置、系统、介质和设备。首先根据AGV小车的实际运行环境构建出AGV小车的模拟运行环境;然后在模拟运行环境中,基于Q‑learning算法针对AGV小车从起点运行到目的地的路径进行训练,训练得到AGV小车在各个位置处的Q值矩阵;在AGV小车的实际运行环境中,控制AGV小车在各个位置时根据步骤S24获取到的AGV小车在各个位置处的Q值矩阵选择运行方向。本发明专利技术AGV小车在实际运行之前,先在模拟运行环境中基于Q‑learning算法训练出AGV小车从起点运行到目的地的路径,能够使得AGV小车能够准确的到达目的地的同时准确的避开障碍物。

【技术实现步骤摘要】
AGV小车导航方法、装置、系统、介质和设备
本专利技术涉及AGV小车的运行控制方法,特别涉及一种AGV小车导航方法、装置、系统、介质和设备。
技术介绍
传统人力和半机械化的工厂物流方式成本高、效率低,无法满足生产自动化和智能化的要求。AGV(AutomatedGuidedVehicle)作为一种新型智能物流设备,具有高自动化、高一体化、高灵活性等特点,能够很快捷地与各类RS/AS入/出口、生产线、装配线、输送线、站台、货架、作业点等有机结合;能够根据不同的需求,以不同的组合,实现各种不同的功能;能最大限度地缩短物流周转周期,降低物料的周转消耗,实现来料与加工、物流与生产、成品与销售等的柔性衔接,最大限度地提高生产系统的工作效率,现已广泛应用于仓储业、制造业等行业中。近年来,电商行业的发展势不可挡,而物流又是该行业及其重要的部分,物流分拣的效率很大程度上影响着行业的发展速度。传统工业会逐渐被取代,跟不上行业的发展,机器人来代替人工,提高效率和准确性,降低成本是发展的必然趋势。AGV物流分拣系统用大量的移动机器人进行装载、搬运快递包裹,能够极大地提高工作效率。我国目前的自动化物流分拣主要还是依靠着大型的物流分拣设备,虽然具有较高的物流分拣效率,但是物流分拣设备的大型化就决定了工作场地的大型化,这样就大大的限制了物流分拣的适用范围。我国的自动化物流分拣的发展还处于大型化的阶段,主要适用于大型仓库,进行大批量大包裹的自动化物流分拣。但是现如今,小包裹、小型化的物流分拣的应用范围却越来越广。目前我国市场上的AGV小车的导航方式主要是电磁导航,在地面铺设电缆或磁条已达到引导小车的目的。此外还有激光导航、超声波导航等。在实际应用中,这些导航方式往往需要高昂的成本,并且稳定性不好,当有障碍物时,不能准确的避开。
技术实现思路
本专利技术的第一目的在于克服现有技术的缺点与不足,提供一种AGV小车导航方法,通过该导航方法,AGV小车能够准确的避开障碍物以及准确的到达目的地。本专利技术的第四目的在于提供一种AGV小车导航装置。本专利技术的第三目的在于提供一种AGV小车导航系统。本专利技术的第四目的在于提供一种存储介质。本专利技术的第五目的在于提供一种计算设备。本专利技术的第一目的通过下述技术方案实现:一种AGV小车导航方法,步骤如下:根据AGV小车的实际运行环境构建AGV小车的模拟运行环境,并且根据实际运行环境中的障碍物在模拟运行环境中构建障碍物;在模拟运行环境中,基于Q-learning算法针对AGV小车从起点运行到目的地的路径进行训练,以得到AGV小车在各个位置处的Q值矩阵;在AGV小车的实际运行环境中,控制AGV小车在各个位置时根据上述训练获取到的AGV小车在各个位置处的Q值矩阵选择运行方向。优选的,在模拟运行环境中,基于Q-learning算法针对AGV小车从起点运行到目的地的路径进行训练的具体过程如下:步骤S21、当AGV小车处于起点位置时,首先创建一个Q值矩阵,作为AGV小车起点位置处的Q值矩阵,将上述创建的Q值矩阵中各Q值设置为初始值;其中,Q值矩阵中包括多个Q值,各Q值分别对应代表AGV小车向各方向运行的经验;然后随机选取一个运行方向作为AGV小车的运行方向;步骤S22、当AGV小车从上一位置运行到当前位置时,首先获取AGV小车在当前位置的位置信息,然后根据AGV小车当前位置的位置信息判断AGV小车是否到达目的地;若是,则进入步骤S24;若否,则根据AGV小车当前位置的位置信息判断AGV小车是否到达终点或是否碰到障碍物;若是,则将AGV小车的位置初始化到起点位置,然后执行步骤S21;若否,则进入步骤S23;步骤S23、首先根据Q-learning的奖励机制获取到AGV小车在当前位置的奖励信息;然后根据AGV小车上一位置处的Q值矩阵和AGV小车在当前位置的奖励信息计算AGV小车在当前位置处的Q值矩阵;最后根据AGV小车在当前位置处的Q值矩阵为AGV小车选择运行方向,具体为:比较Q值矩阵中各Q值的大小,选取Q值矩阵中最大的Q值,将该Q值对应所代表的方向作为AGV小车的运行方向;在AGV小车往下一位置运行时,返回步骤S22;步骤S24、训练结束,获取AGV小车从起点成功的运行到目的地的这个训练过程中计算得到的AGV小车在各个位置处的Q值矩阵。更进一步的,步骤S21中,当AGV小车处于起点位置时,创建的Q值矩阵中各Q值设置为零;步骤S23中,在Q-learning算法加入ε-greedy决策,使得AGV小车选择运行方向存在一定的概率为随机选择;在比较Q值矩阵中各Q值的大小时,当Q值矩阵中各Q值大小相同时,则随机选取一个方向作为AGV小车的运行方向;当Q值矩阵中包括最大的Q值个数为多个时,则随机选取这几个最大的Q值代表的方向作为AGV小车的运行方向。更进一步的,步骤S23中,Q-learning的奖励机制为:当AGV小车到达目的地时奖励值为1,当AGV小车碰到障碍物时奖励值为-1,其他情况下奖励值均为0。更进一步的,步骤S23中,根据AGV小车上一位置处的Q值矩阵和AGV小车在当前位置的奖励信息计算AGV小车在当前位置处的Q值矩阵为:Q(S,A)=Q′(S,A)+α[R+γ*max(Q′(S,A))-Q′(S,A)];其中Q(S,A)为AGV小车在当前位置处的Q值矩阵,Q′(S,A)为AGV小车上一位置处的Q值矩阵,R为AGV小车在当前位置的奖励信息,α为学校效率,γ为衰减值;max(Q′(S,A))表示Q值矩阵Q′(S,A)中的最大Q值。本专利技术的第二目的通过以下技术方案实现:一种AGV小车导航装置,包括模拟运行环境构建单元、训练单元以及AGV小车运行控制单元;模拟运行环境构建单元,用于根据AGV小车的实际运行环境构建AGV小车的模拟运行环境,并且根据实际运行环境中的障碍物在模拟运行环境中构建障碍物;训练单元,用于在模拟运行环境中,基于Q-learning算法针对AGV小车从起点运行到目的地的路径进行训练,以得到AGV小车在各个位置处的Q值矩阵;AGV小车运行控制单元,用于在AGV小车的实际运行环境中,控制AGV小车在各个位置时根据训练单元获取到的AGV小车在各个位置处的Q值矩阵选择运行方向。优选的,所述训练单元包括:Q值矩阵创建单元,用于在AGV小车处于起点位置时创建一个Q值矩阵,作为AGV小车起点位置处的Q值矩阵,并且将上述创建的Q值矩阵中各Q值设置为初始值;其中,Q值矩阵中包括多个Q值,各Q值分别对应代表AGV小车向各方向运行的经验;位置信息获取单元,用于获取AGV小车当前位置的位置信息;AGV小车状态判定单元,用于根据AGV小车当前位置的位置信息判定AGV小车是否到达目的地;用于根据AGV小车当前位置的位置信息判定AGV小车是否到达终点或是否碰到障碍物;AGV小车位置初始化单元,用于在AGV小车状态判定单元判定出AGV小车未到达目的地但是到达终点或碰到障碍物时,将AGV小车的位置初始化到起点位置;奖励信息获取单元,用于在AGV小车状态判定单元判断出AGV小车未到达目的且AGV小车未到达终点和未碰到障碍物的情况下,根据Q-learning的奖励机制获取到AGV小车在当前位置的奖励信息;Q值矩阵计算单元,用于在AGV小车状态判定单本文档来自技高网
...

【技术保护点】
1.一种AGV小车导航方法,其特征在于,步骤如下:根据AGV小车的实际运行环境构建AGV小车的模拟运行环境,并且根据实际运行环境中的障碍物在模拟运行环境中构建障碍物;在模拟运行环境中,基于Q‑learning算法针对AGV小车从起点运行到目的地的路径进行训练,以得到AGV小车在各个位置处的Q值矩阵;在AGV小车的实际运行环境中,控制AGV小车在各个位置时根据上述训练获取到的AGV小车在各个位置处的Q值矩阵选择运行方向。

【技术特征摘要】
1.一种AGV小车导航方法,其特征在于,步骤如下:根据AGV小车的实际运行环境构建AGV小车的模拟运行环境,并且根据实际运行环境中的障碍物在模拟运行环境中构建障碍物;在模拟运行环境中,基于Q-learning算法针对AGV小车从起点运行到目的地的路径进行训练,以得到AGV小车在各个位置处的Q值矩阵;在AGV小车的实际运行环境中,控制AGV小车在各个位置时根据上述训练获取到的AGV小车在各个位置处的Q值矩阵选择运行方向。2.根据权利要求1所述的AGV小车导航方法,其特征在于,在模拟运行环境中,基于Q-learning算法针对AGV小车从起点运行到目的地的路径进行训练的具体过程如下:步骤S21、当AGV小车处于起点位置时,首先创建一个Q值矩阵,作为AGV小车起点位置处的Q值矩阵,将上述创建的Q值矩阵中各Q值设置为初始值;其中,Q值矩阵中包括多个Q值,各Q值分别对应代表AGV小车向各方向运行的经验;然后随机选取一个运行方向作为AGV小车的运行方向;步骤S22、当AGV小车从上一位置运行到当前位置时,首先获取AGV小车在当前位置的位置信息,然后根据AGV小车当前位置的位置信息判断AGV小车是否到达目的地;若是,则进入步骤S24;若否,则根据AGV小车当前位置的位置信息判断AGV小车是否到达终点或是否碰到障碍物;若是,则将AGV小车的位置初始化到起点位置,然后执行步骤S21;若否,则进入步骤S23;步骤S23、首先根据Q-learning的奖励机制获取到AGV小车在当前位置的奖励信息;然后根据AGV小车上一位置处的Q值矩阵和AGV小车在当前位置的奖励信息计算AGV小车在当前位置处的Q值矩阵;最后根据AGV小车在当前位置处的Q值矩阵为AGV小车选择运行方向,具体为:比较Q值矩阵中各Q值的大小,选取Q值矩阵中最大的Q值,将该Q值对应所代表的方向作为AGV小车的运行方向;在AGV小车往下一位置运行时,返回步骤S22;步骤S24、训练结束,获取AGV小车从起点成功的运行到目的地的这个训练过程中计算得到的AGV小车在各个位置处的Q值矩阵。3.根据权利要求2所述的AGV小车导航方法,其特征在于,步骤S21中,当AGV小车处于起点位置时,创建的Q值矩阵中各Q值设置为零;步骤S23中,在Q-learning算法加入ε-greedy决策,使得AGV小车选择运行方向存在一定的概率为随机选择;在比较Q值矩阵中各Q值的大小时,当Q值矩阵中各Q值大小相同时,则随机选取一个方向作为AGV小车的运行方向;当Q值矩阵中包括最大的Q值个数为多个时,则随机选取这几个最大的Q值代表的方向作为AGV小车的运行方向。4.根据权利要求2所述的AGV小车导航方法,其特征在于,步骤S23中,Q-learning的奖励机制为:当AGV小车到达目的地时奖励值为1,当AGV小车碰到障碍物时奖励值为-1,其他情况下奖励值均为0。5.根据权利要求2所述的AGV小车导航方法,其特征在于,步骤S23中,根据AGV小车上一位置处的Q值矩阵和AGV小车在当前位置的奖励信息计算AGV小车在当前位置处的Q值矩阵为:Q(S,A)=Q′(S,A)+α[R+γ*max(Q′(S,A))-Q′(S,A)];其中Q(S,A)为AGV小车在当前位置处的Q值矩阵,Q′(S,A)为AGV小车上一位置处的Q值矩阵,R为AGV小车在当前位置的奖励信息,α为学校效率,γ为衰减值;max(Q′(S,A))表示Q值矩阵Q′(S,...

【专利技术属性】
技术研发人员:朱静魏惠棠尹邦政何海城黄文恺全永彬叶谱生张桂浩
申请(专利权)人:广州大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1