基于强化学习的自动化珩车控制方法技术

技术编号:29936846 阅读:13 留言:0更新日期:2021-09-04 19:14
本发明专利技术涉及自动化控制技术领域,公开了基于强化学习的自动化珩车控制方法,包括获取仿真模型、建立强化学习模型和现场部署步骤,利用深度学习和强化学习实现自动化珩车防摇控制,具有易部署,成本低、可靠性高的优点。可靠性高的优点。可靠性高的优点。

【技术实现步骤摘要】
基于强化学习的自动化珩车控制方法


[0001]本专利技术涉及自动化控制
,尤其涉及基于强化学习的自动化珩车控制方法。

技术介绍

[0002]作为世界最大的制造业产业国家,我国拥有大量的大型工厂和物流仓库,无一例外的都需要装备珩车进行各种物料的吊装和转运。自动化珩车技术能够大大提高工厂的生产效率,降低用人成本,提高国家综合竞争能力。
[0003]目前自动化珩车技术主要包括感知和控制两部分。感知主要包括珩车的位置定位和吊具的定位。传统的定位技术主要基于传统的传感器检测设备,大多采用编码器,激光雷达,红外传感器,IMU等。这些检测设备对环境的要求较为苛刻,抗干扰能力差,成本高,并且在恶劣的工业作业环境下往往难以胜任一些检测需求。
[0004]自动化珩车的控制技术主要是珩车的高精度位置控制和吊具的位置控制。目前大多自动珩车控制采用LQR、FUZZY、PID等传统控制方法,这类方法往往需要大量的参数调试,传感器校准,后期维护等工作,具有部署时间周期长,维护成本高的缺点。珩车的根本目的为精准的将货物运送到期望的位置,对于传统控制在感知信息不准确的情况下往往很难达到,较小的感知偏差就会导致控制失效。
[0005]目前大多数自动珩车技术应用仍具有局限性,因此没有能够进行大规模的实际应用。面对广泛的应用需求,急需一种简单,低成本,可靠性高的控制方法。

技术实现思路

[0006](一)要解决的技术问题
[0007]本专利技术实施例提供一种基于强化学习的自动化珩车控制方法,用以解决现有的自动化行车的控制技术存在的部署时间周期长,维护成本高,控制精度低的缺陷。
[0008](二)
技术实现思路

[0009]本专利技术实施例提供基于强化学习的自动化珩车控制方法,包括以下步骤:
[0010]步骤一:获取仿真模型;在仿真环境中建立自动化珩车的作业环境模型;
[0011]步骤二:建立强化学习模型;使用SAC、A3C、TD3等算法中的任意一种建立对应的强化学习模型,将步骤一中获取的相关作业环境模型的相关参数导入所述强化学习模型进行训练;
[0012]步骤三:现场部署;将步骤二中训练好的强化学习模型部署至作业现场。
[0013]优选的,步骤一中获取仿真模型包括以下步骤:
[0014]步骤a)使用仿真软件建立自动化珩车以及其使用环境的物理模型,并对其进行尺寸标定和动力学标定;
[0015]步骤b)在自动化珩车上部署图像采集装置,并对其进行标定。
[0016]优选的,步骤a)中的动力学标定包括阶参数辨识、补偿和阶跃响应标定。
[0017]优选的,步骤b)中对图像采集装置进行标定包括以下步骤:
[0018]步骤

)使用图像采集装置来采集多张标定图片;
[0019]步骤

)对每一张标定图片,提取角点信息;
[0020]步骤

)对每一张标定图片,进一步提取亚像素角点信息;
[0021]步骤

)在棋盘标定图上绘制找到的内角点;
[0022]步骤

)相机标定;
[0023]步骤

)对标定结果进行评价;
[0024]步骤

)查看标定效果,利用标定结果对棋盘图进行矫正。
[0025]优选的,强化学习模型包括价值网络、策略网络和Q网络,环境监测到的数据分别导入三者,价值网络输出状态价值,策略网络输出采样动作和最优策略,Q网络接受环境监测数据和采样动作,并输出两种不同得状态动作价值。
[0026]优选的,价值网络、策略网络和Q网络均包括输入层、中间层和深层网络。
[0027]优选的,强化学习模型的训练方法包括:
[0028]步骤c)初始化参数;
[0029]步骤d)智能体与作业环境交互,得到数据;
[0030]步骤e)训练智能体,所深度学习网络进行更新;
[0031]步骤f)评估训练效果。
[0032](三)有益效果
[0033]本专利技术实施例提供的基于强化学习的自动化珩车控制方法,包括获取仿真模型、建立强化学习模型和现场部署步骤,利用深度学习和强化学习实现自动化珩车防摇控制,具有易部署,成本低、可靠性高的优点。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1是本专利技术实施例中的基于强化学习的自动化珩车控制方法的强化学习模型的系统框图;
[0036]图2是本专利技术实施例中的基于强化学习的自动化珩车控制方法的强化学习模型的训练方法流程图;
[0037]图3是强化学习后自动化珩车带着集装箱运动的情况示意图;
[0038]图4是传统算法控制下自动化珩车带着集装箱运动的情况示意图。
具体实施方式
[0039]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]在本专利技术实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“第一”“第二”“第三”是为了清楚说明产品部件进行的编号,不代表任何实质性区别。“上”“下”“左”“右”的方向均以附图所示方向为准。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术实施例中的具体含义。
[0041]需要说明的是,除非另有明确的规定和限定,术语“连接”应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在专利技术实施例中的具体含义。
[0042]本实施例提供的一种基于强化学习的自动化珩车控制方法,主要是利用深度学习和强化学习实现自动化珩车防摇控制,用一个或数个摄像机作为输入,控制小车动作,抑制起重机摆动。可以使负载移动到给定的位置,且残余摆动极小。
[0043]具体包括以下步骤:
[0044]步骤一:获取仿真模型;在仿真环境中建立自动化珩车的作业环境模型;在仿真软件MSC Adams中建立自动化珩车的物理模型,将其与实际起重机进行标定,使仿真环境和实际场景的动力学响应误差在一定范围内。标定包括尺寸标定和动力学标定。尺寸标定是指在现场测量相关尺寸与仿真环境中的尺寸进行标定。动力学标定是指在现场测试系统的动力学响应,例如阶跃相应,标定使仿真环境有类似的动力学响应。
[0045]同时建立相机模型,在自动化珩车上部署用于采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的自动化珩车控制方法,其特征在于,包括以下步骤:步骤一:获取仿真模型;在仿真环境中建立自动化珩车的作业环境模型;步骤二:建立强化学习模型;使用SAC、A3C、TD3等算法中的任意一种建立对应的强化学习模型,将步骤一中获取的相关作业环境模型的相关参数导入所述强化学习模型进行训练;步骤三:现场部署;将步骤二中训练好的强化学习模型部署至作业现场。2.根据权利要求1所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤一中获取仿真模型包括以下步骤:步骤a)使用仿真软件建立自动化珩车以及其使用环境的物理模型,并对其进行尺寸标定和动力学标定;步骤b)在自动化珩车上部署图像采集装置,并对其进行标定。3.根据权利要求2所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤a)中的动力学标定包括阶参数辨识、补偿和阶跃响应标定。4.根据权利要求2所述的基于强化学习的自动化珩车控制方法,其特征在于,所述步骤b)中对图像采集装置进行标定包括以下步骤:步骤

)使用图像采集装置来采集多张标定图片;步骤

)对每一张标定图片,提取角...

【专利技术属性】
技术研发人员:张永青曲亦闻杨庆研
申请(专利权)人:聚时科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1