AGV控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39182936 阅读:7 留言:0更新日期:2023-10-27 08:30
本申请涉及自动化控制技术领域,提供一种AGV控制方法、装置、电子设备及存储介质。所述方法包括:若接收到自动导引车AGV控制任务,则获取环境图像信息;基于预设深度学习平台结合所述环境图像信息与所述AGV控制任务的任务信息进行控制策略训练,得到包括最优路径的控制策略,以基于所述控制策略执行所述AGV控制任务;其中,所述预设深度学习平台包括改进奖励函数后的逆强化学习算法与增加基线后的确定性策略梯度算法。本申请通过快速确定最优路径及控制策略,可以提高AGV控制效率。可以提高AGV控制效率。可以提高AGV控制效率。

【技术实现步骤摘要】
AGV控制方法、装置、电子设备及存储介质


[0001]本申请涉及自动化控制
,具体涉及一种AGV控制方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,移动机器人AGV(Automated Guided Vehicle)装备有电磁或光学等自动导航装置,能够沿规定的导航路径行驶,是一种具有安全保护以及各种移载功能的运输车。传统园区AGV通过Wifi技术实现AGV与控制系统、AGV之间、AGV与周边设施的互联互通,导航系统采用核心控制器适配主流的激光雷达的方式,为AGV提供核心的地图构建、定位导航、模型编辑等功能。当前技术主要利用专家经验的奖励函数和通过传感器获取的环境,使车辆在贴合目标驾驶状态时给予的极大奖励值,引导无人车在目标状态基础之上进行车道保持,实现AGV控制。但是,人为设计的奖励函数往往具有较高的主观性和经验性,无人智能体在复杂环境中无法具有更高的自适应性,在这种情况下,强化学习算法将会很难收敛;同时,仅通过获取车道边界距离、自车状态、周围动态车辆的检测距离等易获取的关键信息,不能满足当前工业园区、制造车间等复杂道路和环境的需求,没有充分挖掘利用AGV所处环境所潜在的其他环境信息。因此,使得当前AGV在进行路径选择时效率低,导致AGV控制效率低。

技术实现思路

[0003]本申请实施例提供一种AGV控制方法、装置、电子设备及存储介质,用以解决当前AGV在进行路径选择时效率低导致AGV控制效率低的技术问题。
[0004]第一方面,本申请实施例提供一种AGV控制方法,包括:
[0005]若接收到自动导引车AGV控制任务,则获取环境图像信息;
[0006]基于预设深度学习平台结合所述环境图像信息与所述AGV控制任务的任务信息进行控制策略训练,得到包括最优路径的控制策略,以基于所述控制策略执行所述AGV控制任务;其中,所述预设深度学习平台包括改进奖励函数后的逆强化学习算法与增加基线后的确定性策略梯度算法。
[0007]在一个实施例中,所述改进奖励函数后的逆强化学习算法为将原逆强化学习算法中奖励函数的样本权值调整为回报更新特征后的逆强化学习算法。
[0008]在一个实施例中,所述增加基线后的确定性策略梯度算法包括从原确定性策略梯度算法的经验池中选择样本并形成的基线。
[0009]在一个实施例中,所述基于预设深度学习平台结合所述环境图像信息与所述AGV控制任务的任务信息进行控制策略训练,得到包括最优路径的控制策略的步骤之前,还包括:
[0010]对所述环境图像信息进行压缩与修整处理,得到处理后的环境图像信息。
[0011]在一个实施例中,所述若接收到自动导引车AGV控制任务,则获取环境图像信息的
步骤之前,还包括:
[0012]接入5G网络并部署边缘计算平台。
[0013]在一个实施例中,所述获取环境图像信息的步骤包括:
[0014]根据预置的深度相机获取环境图像信息。
[0015]第二方面,本申请实施例提供一种AGV控制装置,包括:
[0016]获取模块,用于若接收到自动导引车AGV控制任务,则获取环境图像信息;
[0017]训练模块,用于基于预设深度学习平台结合所述环境图像信息与所述AGV控制任务的任务信息进行控制策略训练,得到包括最优路径的控制策略,以基于所述控制策略执行所述AGV控制任务;其中,所述预设深度学习平台包括改进奖励函数后的逆强化学习算法与增加基线后的确定性策略梯度算法。
[0018]在一个实施例中,所述训练模块,还用于对所述环境图像信息进行压缩与修整处理,得到处理后的环境图像信息。
[0019]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面或第二方面所述的AGV控制方法的步骤。
[0020]第四方面,本申请实施例提供一种存储介质,所述存储介质为计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面所述的AGV控制方法的步骤。
[0021]本申请实施例提供的AGV控制方法、装置、电子设备及存储介质,在接收到AGV控制任务时,通过包括改进奖励函数后的逆强化学习算法与增加基线后的确定性策略梯度算法的深度学习平台,结合AGV控制任务的任务信息与表征AGV所处环境的环境图像信息进行控制策略训练,由于改进奖励函数后的逆强化学习算法可以有效加速参数更新过程,而增加基线后的确定性策略梯度算法可以改进参数更新效果并提高训练收敛速度,同时充分挖掘利用AGV所处环境所潜在的其他环境信息,因此可以快速得到包含最优路径的控制策略,以便于根据控制策略快速执行AGV控制任务,通过快速确定最优路径及控制策略,可以提高AGV控制效率。
附图说明
[0022]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请实施例提供的AGV控制方法的流程示意图之一;
[0024]图2是本申请实施例提供的AGV控制方法的流程示意图之二;
[0025]图3是本申请实施例提供的AGV控制方法的流程示意图之三;
[0026]图4是本申请AGV控制装置实施例的功能模块示意图;
[0027]图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0028]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附
图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]图1为本申请实施例提供的AGV控制方法的流程示意图之一。
[0030]参照图1,本申请实施例提供一种AGV控制方法,可以包括:
[0031]步骤S100,若接收到自动导引车AGV控制任务,则获取环境图像信息;
[0032]本实施例中AGV控制方法可以应用于作为AGV控制系统的智能手机、平板电脑、PC、上位机等电子设备,以解决当前因AGV在进行路径选择时效率低而导致AGV控制效率低的问题。
[0033]当具有对AGV的控制需求时,用户可以通过与AGV控制系统具有通信连接关系的设备或终端向AGV控制系统发送AGV控制任务,其中,AGV控制任务中可以包括目标及其位置等任务信息,例如AGV控制任务可以为搬运指定位置的指定物体,以使AGV控制系统在接收到AGV控制任务时可以执行该任务。
[0034]若AGV控制系统接收到用户发送的AGV控制任务,则在5G网络附着(Registration Request)建立默认承载,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种AGV控制方法,其特征在于,包括:若接收到自动导引车AGV控制任务,则获取环境图像信息;基于预设深度学习平台结合所述环境图像信息与所述AGV控制任务的任务信息进行控制策略训练,得到包括最优路径的控制策略,以基于所述控制策略执行所述AGV控制任务;其中,所述预设深度学习平台包括改进奖励函数后的逆强化学习算法与增加基线后的确定性策略梯度算法。2.根据权利要求1所述的AGV控制方法,其特征在于,所述改进奖励函数后的逆强化学习算法为将原逆强化学习算法中奖励函数的样本权值调整为回报更新特征后的逆强化学习算法。3.根据权利要求1所述的AGV控制方法,其特征在于,所述增加基线后的确定性策略梯度算法包括从原确定性策略梯度算法的经验池中选择样本并形成的基线。4.根据权利要求1所述的AGV控制方法,其特征在于,所述基于预设深度学习平台结合所述环境图像信息与所述AGV控制任务的任务信息进行控制策略训练,得到包括最优路径的控制策略的步骤之前,还包括:对所述环境图像信息进行压缩与修整处理,得到处理后的环境图像信息。5.根据权利要求1所述的AGV控制方法,其特征在于,所述若接收到自动导引车AGV控制任务,则获取环境图...

【专利技术属性】
技术研发人员:曲若鹏
申请(专利权)人:中移系统集成有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1