当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度强化学习的电机伺服系统控制方法技术方案

技术编号:42621241 阅读:26 留言:0更新日期:2024-09-06 01:25
本发明专利技术公开了一种基于深度强化学习的电机伺服系统控制方法。方法包括:实时采集伺服电机的电机状态;将伺服系统的待整定控制参数和特定的双延迟深度确定性策略梯度TD3算法融合,然后将电机状态输入算法中训练,算法将优化后的待整定控制参数同步至伺服系统后对伺服电机进行控制,伺服电机实时输出电机状态至算法中完成循环,直至算法收敛,输出整定完成的控制参数并输入伺服系统中进而对伺服电机进行控制。本发明专利技术方法能实现伺服系统控制参数的自动化智能调节,减少人工干预,提升效率,还能通过优化参数提高伺服系统的控制精度和响应速度,增强伺服系统适应性,使其能在不同生产环境和工况下保持稳定高效运行。

【技术实现步骤摘要】

本专利技术涉及了一种电机伺服系统控制方法,涉及伺服系统高精度控制,具体涉及一种基于深度强化学习的电机伺服系统控制方法


技术介绍

1、伺服系统作为现代制造业中精密控制的关键技术,其参数调节的精度直接影响到机械设备的运行效率、稳定性以及产品的加工质量。随着智能制造和高效自动化的不断发展,对伺服系统控制技术提出了更高的要求,特别是在调节控制参数的自动化和智能化方面。然而,传统的参数调节方法,如基于经验的手动调节和简单的自适应控制策略,已经难以满足复杂和高精度要求的生产环境。因此,开发新型的智能化参数调节技术,对于提高生产效率、保证产品质量、降低能耗具有极其重要的意义。

2、目前,国内外在伺服系统控制参数调节方面的研究主要集中在几个方向:包括经验与手动调节、自适应控制、模糊逻辑控制、经典优化算法如遗传算法,以及初步的机器学习方法。这些方法在特定应用场景下能够取得一定的效果,但普遍存在一些问题。例如,经验和手动调节依赖于操作者的知识和经验,效率低下;自适应控制和模糊逻辑控制在处理复杂、高度非线性系统时表现不足;经典优化算法和基础机器学习在处理多参数协同本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的电机伺服系统控制方法,其特征在于,包括:

2.根据权利要求1所述的基于深度强化学习的电机伺服系统控制方法,其特征在于:所述的步骤2)中,伺服电机的伺服系统中包括电流环、速度环和位置环,伺服电机的参考位置指令θref首先经过位置环的位置指令低通滤波环节后获得滤波后的参考位置指令θref,将滤波后的参考位置指令θref和伺服电机输出的实际位置信号θ1作差后获得位置误差,将滤波后的参考位置指令θref以及获得的位置误差分别经过位置环的速度前馈环节和比例控制环节后相加输出速度指令ωref,将速度指令ωref依次经过共振陷波滤波器和速度环的速度指令低通滤波环节...

【技术特征摘要】

1.一种基于深度强化学习的电机伺服系统控制方法,其特征在于,包括:

2.根据权利要求1所述的基于深度强化学习的电机伺服系统控制方法,其特征在于:所述的步骤2)中,伺服电机的伺服系统中包括电流环、速度环和位置环,伺服电机的参考位置指令θref首先经过位置环的位置指令低通滤波环节后获得滤波后的参考位置指令θref,将滤波后的参考位置指令θref和伺服电机输出的实际位置信号θ1作差后获得位置误差,将滤波后的参考位置指令θref以及获得的位置误差分别经过位置环的速度前馈环节和比例控制环节后相加输出速度指令ωref,将速度指令ωref依次经过共振陷波滤波器和速度环的速度指令低通滤波环节获得滤波后的速度指令ωref,伺服电机输出的实际位置信号θ1依次经求导和速度环的速度反馈低通滤波环节获得滤波后的实际速度信号ω1,将滤波后的速度指令ωref和滤波后的实际速度信号ω1作差后获得速度误差,将滤波后的速度指令ωref以及获得的速度误差分别经过速度环的加速度前馈环节和比例积分控制环节相加输出q轴参考电流指令iqref,将q轴电流指令iqref和预设d轴参考电流指令idref分别经电流环的电流指令低通滤波环节后分别获得滤波后的q轴参考电流指令iqref和d轴参考电流指令idref,将滤波后的d轴参考电流指令idref和伺服电机输出的d轴实际电流指令id1作差后获得d轴电流误差,将滤波后的q轴参考电流指令iqref和伺服电机输出的q轴实际电流指令iq1作差后获得q轴电流误差,将d轴电流误差和q轴电流误差分别经电流环的比例积分控制环节后输出给永磁同步电机的伺服电机进行控制。

3.根据权利要求1所述的基于深度强化学习的电机伺服系统控制方法,其特征在于:所述的步骤2)中,特定的双延迟深度确定性策略梯度td3算法中包括两个智能体、两个奖励reward函数和两个经验回放池,两个经验回放池的容量相同;实际位置信号经过第一智能体、第一奖励reward函数和第一经验回放池进行处理,电机状态包括电机的实际位置和速度信号,实际速度信号经过第二智能体、第二奖励reward函数和第二经验回放池进行处理;第一智能体包括依次连接的第一价值value网络和第一动作actor网络,第二智...

【专利技术属性】
技术研发人员:张祺洋曹彦飞王敢许畅史婷娜
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1