一种控制永磁同步直线电机的方法及系统技术方案

技术编号:22298052 阅读:53 留言:0更新日期:2019-10-15 06:39
本发明专利技术涉及永磁同步直线电机技术领域,具体涉及一种控制永磁同步直线电机的方法、系统、平台及存储介质。建立永磁直线电机数学模型;通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。可以将深度强化学习算法所具有的并行性、自适应、自学习等能力结合PID控制应用于PMLSM伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对PMLSM进行快速准确控制。

A Method and System for Controlling Permanent Magnet Synchronous Linear Motor

【技术实现步骤摘要】
一种控制永磁同步直线电机的方法及系统
本专利技术涉及永磁同步直线电机
,具体涉及一种控制永磁同步直线电机的方法、系统、平台及存储介质。
技术介绍
随着现代生产技术的发展对PMLSM伺服系统稳定性、精确性有了更高的要求。常规的控制算法已经越来越不能满足PMLSM控制系统的要求,随着人工智能技术的发展和成熟,将现代智能控制方法应用于永磁同步直线电机控制系统成为未来发展的趋势。永磁同步直线电机(Permanentmagnetlinearsynchronousmotor,PMLSM)是一种不需要中间传动装置而直接将电能转换为直线运动的电机。永磁同步直线电机有着推力大、速度大、行程大和精度高等优点,相比传统旋转电机,永磁同步直线电机驱动系统取消了中间传动环节,简化了机械结构,具有优越的加减速度特性和高刚度、高可靠性,运行噪声小,维护简单等优点。所以永磁同步直线电机越来越广泛的应用在一些高速、高精密机械加工中。然而由于其实际伺服系统是非线性、不确定性系统,当模型的不确定性超过传统线性最优鲁棒控制所允许的范围时,控制系统就变得不稳定。此外,为使永磁同步直线电机伺服系统稳定、可控,现代常规的控制方法有模糊控制、神经网络和粒子群算法控制等控制方法。模糊PID控制,相较于单一的PID控制算法,模糊PID控制控制下的PMLSM伺服系统的超调量较小、响应速度较快,且系统的抗干扰能力强,鲁棒性好,基本达到了控制系统的设计要求。模糊神经网络控制,模糊神经网络控制系统与传统PID和模糊PID相比,具有超调小,快速性好及运行稳定的优点,其控制效果得到了明显的提升。粒子群算法,采用改进的粒子群算法来优化PMLSM,在优化过程中增加了遗传算法中的交叉这个过程,实现了粒子群算法与遗传算法相结合,这种改进的算法不仅能减少迭代次数,让目标函数快速收敛,还能防止陷入局部最优,提高算法寻找全局最优的可靠性。这些经典的现代智能控制系统,为研究新型的伺服控制系统奠定了良好的理论基础,但控制过程仍存在一些缺点:模糊逻辑控制,模型预测控制等传统控制方法需要复杂的数学模型和专业知识,然而,专家们很难获得这些经验和知识。通过粒子群优化,遗传算法和神经网络算法优化的最优跟踪曲线通常仅对特定周期有效,缺乏在线学习能力和有限的泛化能力。因此传统控制方法很难满足现代伺服系统的要求。
技术实现思路
针对以上实际伺服系统是非线性、不确定性系统,缺乏在线学习能力和有限的泛化能力的问题,本专利技术提出一种基于深度强化学习算法控制永磁同步直线电机的方法,即一种控制永磁同步直线电机的方法、系统、平台及存储介质,将深度强化学习算法所具有的并行性、自适应、自学习等能力结合PID控制应用于PMLSM伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对PMLSM进行快速准确控制。本专利技术具体通过以下技术方案实现:一种控制永磁同步直线电机的方法,所述的方法具体包括如下步骤:建立永磁直线电机数学模型;通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。进一步地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:通过actor-critic网络构建强化学习代理的框架;以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;实现PID参数自动调整;具体地,PID控制器由以下方程设计:其中,u(t)表示控制器t时刻输出信号,u(t-1)表示控制器t-1时刻输出信号,Δu(t)表示控制器输出增量,ki,kp,kd分别表示比例、积分、微分系数,e(t)表示给定值与实际输出反馈值之差,e(t-1)表示上一时刻给定值与实际输出反馈值之差,e(t-2)表示上上时刻给定值与实际输出反馈值之差,Δe(t)表示当前时刻误差与上一时刻误差之差,Δe(t-1)表示上一时刻误差与上上时刻误差之差,Δ2e(t)=Δe(t)-Δe(t-1)。进一步地,于步骤通过actor-critic网络构建强化学习代理的框架中;critic的动作值函数具体为:Q(st,μ(st|θμ)|θQ)(2)actor的动作值函数具体为:μ(st|θμ)(3)其中,θQ和θμ分别表示critic在线网络和actor在线网络的权重,st表示存储当前状态,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。进一步地,于步骤通过actor-critic网络构建强化学习代理的框架中;actor评估网络选择动作采用的函数为:at=[kp,ki,kd]=μ(st|θμ)+Noise(4)其中,at代表t时刻代理执行的动作即t时刻ki,kp,kd的值,ki,kp,kd分别表示比例、积分、微分系数,μ表示actor在线网络策略,st表示存储当前状态,θμ代表actor在线网络的权重,Noise代表随机OU噪声。进一步地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:从存储器中取出部分随机样本,进而进行训练更新目标网络;具体的学习过程函数为:其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,分别代表目标权重,γ代表折扣因子。进一步地,于步骤从存储器中取出部分随机样本,进而进行训练更新目标网络中,还包括如下步骤:根据最小损失函数更新critic网络;具体函数采用公式为:其中,L代表损失函数,N代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。根据策略梯度更新actor网络;具体函数采用公式为:其中,▽θμJ代表actor更新网络梯度,N代表更新次数,▽aQ(s,a|θQ)代表critic在线网络对μ策略的评估梯度,▽θμμ(s|θμ)代表actor在线网络策略梯度。根据更新后的critic网络和actor网络,更新目标网络。为实现上述目的,本专利技术还提供一种控制永磁同步直线电机的系统,所述的系统具体包括:模型建立单元,用于建立永磁直线电机数学模型;自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;自动调整单元,用于获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。进一步地,所述的自动调整单元,还包括如下功能模块:网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;跟踪模块,用于以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;实现模块,用于实现PID参数自动调整;第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;具体地,第一更新模块中还包括:第二更新模块,用于根据最小损失函数更新critic网络;第三更新模块,用于根据策略梯度更新actor网络;第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。为实现上述目的,本专利技术还提供一种控制永磁同步直线电机的平台,具体包括:处理器、存储器以及控制永磁同步直线电机平台控制程序;其中在所述处理器执行所述控制永磁本文档来自技高网
...

【技术保护点】
1.一种控制永磁同步直线电机的方法,其特征在于,所述的方法具体包括如下步骤:建立永磁直线电机数学模型;通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。

【技术特征摘要】
1.一种控制永磁同步直线电机的方法,其特征在于,所述的方法具体包括如下步骤:建立永磁直线电机数学模型;通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。2.根据权利要求1所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:通过actor-critic网络构建强化学习代理的框架;以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;实现PID参数自动调整;具体地,PID控制器由以下方程设计:其中,u(t)表示控制器t时刻输出信号,u(t-1)表示控制器t-1时刻输出信号,Δu(t)表示控制器输出增量,ki,kp,kd分别表示比例、积分、微分系数,e(t)表示给定值与实际输出反馈值之差,e(t-1)表示上一时刻给定值与实际输出反馈值之差,e(t-2)表示上上时刻给定值与实际输出反馈值之差,Δe(t)表示当前时刻误差与上一时刻误差之差,Δe(t-1)表示上一时刻误差与上上时刻误差之差,Δ2e(t)=Δe(t)-Δe(t-1)。3.根据权利要求2所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过actor-critic网络构建强化学习代理的框架中;critic的动作值函数具体为:Q(st,μ(st|θμ)|θQ)(2)actor的动作值函数具体为:μ(st|θμ)(3)其中,θQ和θμ分别表示critic在线网络和actor在线网络的权重,st表示存储当前状态,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。4.根据权利要求2所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过actor-critic网络构建强化学习代理的框架中;actor评估网络选择动作采用的函数为:at=[kp,ki,kd]=μ(st|θμ)+Noise(4)其中,at代表t时刻代理执行的动作即t时刻ki,kp,kd的值,ki,kp,kd分别表示比例、积分、微分系数,μ表示actor在线网络策略,st表示存储当前状态,θμ代表actor在线网络的权重,Noise代表随机OU噪声。5.根据权利要求1所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:从存储器中取出部分随机样本,进而进行训练更新目标网络;具体的学习过程函数为:其中,yi代表目标...

【专利技术属性】
技术研发人员:张振宇张昱陈丽林利彬张东波秦昊凌翔刘智杨瑞魏千洲王晓旭
申请(专利权)人:广东省智能制造研究所
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1