一种基于视频反馈信号强化学习的自动行车防摇控制方法技术

技术编号:32890860 阅读:28 留言:0更新日期:2022-04-02 12:34
本发明专利技术提出了一种基于视频反馈信号强化学习的自动行车防摇控制方法,包括如下步骤:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位置信息,通过相邻两个位置信息的差分计算得到速度信息;将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;同时考虑快速摆角抑制和位置控制精度设计reward函数,用于强化学习训练,获得控制模型,将缓存的信息输入到强化学习训练得到的控制模型中并输出大车和小车的运动控制指令,实现快速摆角抑制和位置精确控制的效果。制的效果。制的效果。

【技术实现步骤摘要】
一种基于视频反馈信号强化学习的自动行车防摇控制方法


[0001]本专利技术涉及工业自动化控制领域,尤其涉及一种基于视频反馈信号强化学习的自动行车防摇控制方法。

技术介绍

[0002]行车作为大负载的通用物流设备,在绝大部分的工厂车间都会用到各类行车起重机,如矿业,钢铁行车,有色金属行车,机械加工制造业等。行车的驾驶人员需要掌握一定的技术技能,同时又需要长时间的工作在狭小的驾驶室。
[0003]基于传统防摇算法,一般采用可编程控制器和变频器,根据操作指令及起重机的实时运行状况计算出能消除载荷摇摆的大小车运行速度,再通过变频器根据所要求的速度驱动大车和小车运行,从而实现消除起重机载荷摇摆现象。
[0004]依靠此类方法,但是由于技术和成本的问题,我国桥式起重机的自动化程度还是相当的低,全行业的自动化程度不到千分之一,无法主要的原因如下:1、绝大多数的系统采用开环控制,只能工作在无初始摆角的工况,而闭环系统技术一直由外国公司掌握,企业部署成本一直居高不下。2、基于视觉的闭环防摇技术需在在吊具上安装定位标靶。很多时候,实际工况不具备安装条件。3、司机操作的时候需要预估刹车距离,一旦预估错误,就要能会造成被吊物撞到其它物器。4、需要异常情况,设备急停后,无法自动恢复作业。5、传统的防摇方法不没有考虑司机在驾驶室中的作业感受,采用高频的控制,在进行防摇的过程中,司机会产生不显的不适,极难推广。
[0005]传统的摆角检测一般有三种方法:1)基于物理角度传感器、IMU(Inertial measurement unit)、视觉和标靶的方法进行检测。但是这三种方法,均对吊具本身都有较多的要求。其中基于视觉和标靶的方法对具吊的要求最少,也是目前采用较多的方案。但是,由于现有的视觉和标靶的方法有较大的反馈延时,因此也无法直接用于行车的自动控制。
[0006]鉴于此,实有必要提供一种新型的基于视频反馈信号强化学习的自动行车防摇控制方法以克服上述缺陷。

技术实现思路

[0007]本专利技术的目的是提供一种基于视频反馈信号强化学习的自动行车防摇控制方法,在给出目标位置的情况下,可以实现吊具的小车和大车的自动控制,实现小车和打车能够精确的停止在目标位置,并且无摆角,可以实现行车的辅助驾驶主要功能,极大的减少司机的工作量。
[0008]为了实现上述目的,本专利技术提供一种基于视频反馈信号强化学习的自动行车防摇控制方法,包括如下步骤:S1:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位
置信息,通过相邻两个位置信息的差分计算得到速度信息;S2:将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;S3:采用强化学习获取控制模型,将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数计算得到快速摆角抑制和位置精确控制的效果,所述reward函数如下:其中, c代表时间步,代表当前的小车位置,代表当前的摆角,代表当前的动作,代表通过控制模型计算得到的目标位置,代表通过控制模型计算得到的目标控制量,k1,k2和k3为各项的权重系统。
[0009]优选的,所述控制模型的求得过程如下:步骤3还包括步骤S311:构建基础lstm网络;S312:采用基于sac算法收集系统动力学数据用于步骤S311中所述的lstm网络的训练,训练后的lstm网络在sac算法得到的策略下进行精度验证;S313:构建基于CNNsAttention 和Transfomer方法的运动控制网络,并采用基于PPO算法在动力学模拟上进行低频率(控制训练,同时将控制过程中所需总能量作为奖励的惩罚项,最终采用步骤3中所述的reward函数得到控制模型。
[0010]与现有技术相比,有益效果在于:1)可以快速计算得到快速摆角抑制的效果以实现快速抑摆功能,在任何状态下可以实现吊具的小车和大车的自动调整在三个周期内完成90%以上的摆角抑制;2)在给出目标位置的情况下,可以实现吊具的小车和大车的自动控制,实现小车和打车能够精确的停止在目标位置,并且无摆角,可以实现行车的辅助驾驶主要功能,极大的减少司机的工作量;3)解决了只能工作在无初始摆角的工况,设备急停后无法自动恢复作业等问题,采用低频控制提高了操作舒适性,从而提高了应用和推广的能力;采用基于强化学习的算法,对不同工况下的行车有着更好的适应性,在绝大多数工况下都有高效的摆角抑制效率。
附图说明
[0011]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0012]图1为本专利技术提供的基于视频反馈信号强化学习的自动行车防摇控制方法的流程图。
[0013]图2为基于视频反馈信号强化学习的自动行车防摇控制方法控制吊具过程中的波形图。
具体实施方式
[0014]为了使本专利技术的目的、技术方案和有益技术效果更加清晰明白,以下结合附图和具体实施方式,对本专利技术进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本专利技术,并不是为了限定本专利技术。
[0015]请参阅图1至图2,本专利技术提供一种基于视频反馈信号强化学习的自动行车防摇控制方法,包括如下步骤:S1:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位置信息,通过相邻两个位置信息的差分计算得到速度信息;S2:将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;S3:采用强化学习获取控制模型,将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数评价得到快速摆角抑制和位置精确控制的效果,所述reward函数如下:其中, c代表时间步(频率为20Hz,0.05秒/次,计为一个时间步),代表当前的小车位置,代表当前的摆角,代表当前的动作,代表通过控制模型计算得到的目标位置,代表通过控制模型计算得到的目标控制量,k1,k2和k3为各项的权重系统。
[0016]具体的,所述控制模型的求得过程如下:S311:构建一个基础的lstm网络,用于进行系统动力学的模拟和后续强化学习的训练;S312:采用基于sac算法收集系统动力学数据用于步骤S311中所述的lstm网络的训练,训练后的lstm网络在sac算法得到的策略下进行精度验证;S313:构建一个基于CNNsAttention 和Transfomer方法的运动控制网络,并采用基于PPO算法在动力学模拟上进行低频率(20Hz/次)控制训练,同时将控制过程中所需总能量作为奖励的惩罚项,最终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频反馈信号强化学习的自动行车防摇控制方法,其特征在于,包括如下步骤:S1:通过卷积神经网络识别目标物,并结合小孔成像模型计算出吊具的摆角信息,通过PLC控制器读取当前位置的整数编码,并根据PLC控制器的编码方式计算得到真实的位置信息,通过相邻两个位置信息的差分计算得到速度信息;S2:将连续若干帧的吊具在图片中位置、真实的位置信息和速度信息存在一个固定的缓存长度中进行缓存,缓存进行实时滚动更新;S3:采用强化学习获取控制模型,将缓存的信息输入到控制模型中并输出大车和小车的运动控制指令,通过reward函数评价快速摆角抑制和位置精确控制的效果,所述reward函数如下:其中, c代表时间步,代表当前的小车位置,代表当前的摆...

【专利技术属性】
技术研发人员:杨庆研熊欣欣郑军
申请(专利权)人:聚时科技江苏有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1