【技术实现步骤摘要】
一种基于状态与扰动估计的物料转送器强化学习控制方法
本专利技术属于流体传动与控制领域,特别是一种基于状态与扰动估计的物料转送器强化学习控制方法。
技术介绍
电液伺服系统具有输出力矩/力大、刚度大、精度高、响应速度快等特点,在机器人、航空航天、国防工业以及大型工程机械中得到广泛使用。近年来随着技术的发展,对液压控制系统要求也越来越高,但是由于液压系统具有很强的非线性以及不确定性,液压系统实现高性能控制比较困难。目前在很大程度上液压伺服系统仍然采用PID的控制策略,不仅PID参数的整定困难、适应系统参数变化的能力弱,而且控制精度和响应速度难以要求日益增长的控制性能需求,因此需要进行具有较强自适应和自学习能力的电液伺服系统控制方法设计。
技术实现思路
本专利技术的目的在于提供一种基于状态与扰动估计的物料转送器强化学习控制方法,以实现物料转送器电液系统控制参数的自整定,提高物料转送系统的控制性能。实现本专利技术目的的技术解决方案为:一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统 ...
【技术保护点】
1.一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统驱动齿轮副带动输送链传输,液压系统由电液伺服系统控制,通过编码器实时反馈电液伺服系统位置信息;其特征在于,/n首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制,并引入强化学习算法在线调整滑模控制器参数,实现物料转送器电液伺服系统的控制。/n
【技术特征摘要】
1.一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统驱动齿轮副带动输送链传输,液压系统由电液伺服系统控制,通过编码器实时反馈电液伺服系统位置信息;其特征在于,
首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制,并引入强化学习算法在线调整滑模控制器参数,实现物料转送器电液伺服系统的控制。
2.根据权利要求1所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,包括以下步骤:
步骤1、建立物料转送器电液伺服系统的动力学模型:建立物料转送动力学方程和液压缸的流量方程以及无杆腔和有杆腔流量连续方程,联立建立物料转送器电液伺服系统数学模型;
步骤2、基于物料转送电液伺服系统的动力学模型式设计状态与扰动估计器:采用非线性扩张状态观测器完成对系统状态和等效扰动的估计;
步骤3、基于动力学模型式和状态与扰动观测器式建立滑模控制器;
步骤4、建立强化学习径向基函数网络:强化学习模型采用径向基函数网络的Actor-Critic学习;
步骤5、根据强化学习模型中的跟踪误差计算奖励函数;
步骤6、分别根据强化学习模型中的Actor输出公式和Critic输出公式计算Actor-Critic网络输出;
步骤7、将Actor网络的输出应用于滑模控制器,并根据跟踪误差计算滑模控制器输出;
步骤8、将步骤7中得到的控制信号作用于物料转送器电液伺服系统;
步骤9、根据编码器采集的位置信息周期状态,计算Actor网络输出V(t)和奖励函数r(t);
步骤10、根据步骤9中的Actor网络输出V(t)和奖励函数r(t)的值计算TD误差;
步骤11、采用梯度下降法更新Actor-Critic网络权值以及节点中心向量以及节点宽度;
步骤12、根据当前位置判断被控对象是否运动到位如果运动到位则运动结束,否则回到步骤5。
3.根据权利要求2所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,步骤1建立物料转送器电液伺服系统的动力学模型为:
其中u(t)为系统控制输入变量;d(t)为未知的等效扰动,x1(t),x2(t)和x3(t)分别为油缸的位移、速度和加速度;A1为油缸无杆腔面积;A2为油缸有杆腔面积;V...
【专利技术属性】
技术研发人员:钱林方,邹权,孙乐,徐亚栋,陈龙淼,尹强,王满意,陈光宋,陈红彬,魏凯,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。