伺服控制装置及系统、机器学习装置及方法制造方法及图纸

技术编号:19121236 阅读:35 留言:0更新日期:2018-10-10 04:48
提供一种伺服控制装置及系统、机器学习装置及方法,来进行能够避免复杂的高阶的速度前馈的系数的调整的强化学习。对具备根据位置指令制作速度前馈值的速度前馈计算部的伺服控制装置进行机器学习的机器学习装置具备:状态信息取得部,其通过使伺服控制装置执行预定的加工程序,从伺服控制装置取得状态信息,状态信息至少包括位置偏差、速度前馈计算部的传递函数的系数的组合;行为信息输出部,其向伺服控制装置输出包含状态信息所包括的系数的组合的调整信息的行为信息;回报输出部,其输出基于状态信息所包括的位置偏差的、强化学习中的回报的值;价值函数更新部,其根据由回报输出部输出的回报的值、状态信息及行为信息来更新行为价值函数。

【技术实现步骤摘要】
伺服控制装置及系统、机器学习装置及方法
本专利技术涉及针对使用速度前馈控制的伺服控制装置,进行与速度前馈控制中的系数有关的学习的机器学习装置、包含该机器学习装置的伺服控制装置、伺服控制系统以及机器学习方法。
技术介绍
使用速度前馈控制的伺服控制装置,例如记载在专利文献1中。记载在专利文献1中的伺服控制装置对位置指令进行微分来求出位置的前馈控制量,将通过位置环(loop)控制获得的控制量加上位置的前馈控制量来作为速度指令,将对位置的前馈量进行微分得到的速度的前馈控制量加上通过速度环控制得到的值来作为电流指令。专利文献1:日本特开平3-15911号公报
技术实现思路
在伺服控制装置中,存在由于机械摩擦、机械间隙或者空转(lostmotion)等非线性特性的影响,在速度指令值发生变化时产生位置偏差的情况。在像这样的情况下,虽然通过将速度前馈设为高阶,降低了位置偏差,提高了对于位置指令的追踪性,但是速度前馈的系数(参数)的调整变难。本专利技术的目的在于,提供一种在使用速度前馈控制的伺服控制装置中,当为了降低位置偏差来提高对于位置指令的追踪性而将速度前馈的系数设为高阶时,进行能够避免复杂的速度前馈的高阶的系数的调整的强化学习的机器学习装置、包含该机器学习装置的伺服控制装置、伺服控制系统以及机器学习方法。(1)本专利技术所涉及的机器学习装置(例如,后述的机器学习装置200)其是针对具备根据位置指令制作速度前馈值的速度前馈计算单元(例如,后述的速度前馈计算部110)的伺服控制装置(例如,后述的伺服控制装置100)进行机器学习的机器学习装置,所述机器学习装置具备:状态信息取得单元(例如,后述的状态信息取得部201),其通过使所述伺服控制装置执行预定的加工程序,而从所述伺服控制装置取得状态信息,所述状态信息包括至少包含位置偏差的伺服状态以及所述速度前馈计算部的传递函数的系数的组合;行为信息输出单元(例如,后述的行为信息输出部203),其向所述伺服控制装置输出包含所述状态信息所包括的所述系数的组合的调整信息的行为信息;回报输出单元(例如,后述的回报输出部2021),其输出基于所述状态信息所包括的所述位置偏差的、强化学习中的回报的值;以及价值函数更新单元(例如,后述的价值函数更新部2022),其根据由所述回报输出单元输出的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。(2)在上述(1)的机器学习装置中,所述回报输出单元根据所述位置偏差的绝对值来输出所述回报的值。(3)在上述(1)或者(2)的机器学习装置中,所述回报输出单元计算至少基于包含所述位置偏差以及所述位置偏差的微分值的值的回报的值。(4)在上述(1)或者(2)的机器学习装置中,所述状态信息取得单元还观测从所述伺服状态所包含的速度指令值发生变化起到所述位置偏差收敛在预定的范围内为止的时间T,所述回报输出单元至少根据包含所述位置偏差以及所述时间T的长度的值,来计算回报的值。(5)在上述(1)或者(2)的机器学习装置中,所述状态信息取得单元还从所述伺服控制装置取得扭矩指令,所述回报输出单元至少根据包含所述位置偏差以及所述扭矩指令的微分值的值,来计算回报的值。(6)在上述(1)或者(2)的机器学习装置中,所述状态信息取得单元还从所述伺服控制装置取得扭矩指令,所述回报输出单元至少根据所述位置偏差以及所述扭矩指令是否到达了扭矩指令的容许值,来计算回报的值。(7)在上述(1)或者(2)的机器学习装置中,所述状态信息取得单元还从所述伺服控制装置取得扭矩指令,所述回报输出单元至少根据包含所述位置偏差以及所述速度偏差的值,来计算回报的值。(8)在上述(1)~(7)中任一项的机器学习装置中,所述机器学习装置还具备:最佳化行为信息输出单元(例如,后述的优化行为信息输出部205),其根据由所述价值函数更新单元更新后的价值函数,生成并输出所述速度前馈计算部的传递函数的系数的组合。(9)本专利技术所涉及的伺服控制系统具备上述(1)~(8)中任一项所述的机器学习装置;以及具有速度前馈计算部的伺服控制装置,该速度前馈计算部根据位置指令制作速度前馈值。(10)本专利技术所涉及的伺服控制装置具备上述(1)~(8)中任一项所述的机器学习装置;以及速度前馈计算单元,其根据位置指令制作速度前馈值。(11)本专利技术所涉及的机器学习方法,其针对具备速度前馈计算单元的伺服控制装置进行机器学习,所述速度前馈计算单元根据位置指令制作速度前馈值,其特征在于,该机器学习方法具有如下步骤:通过使所述伺服控制装置执行预定的加工程序,从所述伺服控制装置取得状态信息,所述状态信息包括至少包含位置偏差的伺服状态以及所述速度前馈计算部的传递函数的系数的组合,向所述伺服控制装置输出包含所述状态信息所包括的所述系数的组合的调整信息的行为信息,根据基于所述状态信息所包括的所述位置偏差的、强化学习中的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。根据本专利技术,在使用速度前馈控制的伺服控制装置中,当为了降低位置偏差来提高对于位置指令的追踪性而将速度前馈的系数设为高阶时,可以进行能够避免复杂的速度前馈的高阶的系数的调整的强化学习。附图说明图1是表示本专利技术的第1实施方式的伺服控制系统的框图。图2是表示通过网络连接伺服控制装置与机器学习装置200的结构例的框图。图3是表示控制对象300的一个例子的框图。图4A是用于说明加工形状为圆形时的伺服电动机的动作的图。图4B是表示加工形状为圆形,且在位置A1,由于想要使令工作台在Y轴方向移动的伺服电动机的旋转方向反转时的惯性运动而产生的轨迹误差的说明图。图4C是用于说明当加工形状为方形时的伺服电动机的动作的图。图4D是用于说明当加工形状为带有角度R的方形时的伺服电动机的动作的图。图5是表示第1实施方式的机器学习装置200的框图。图6是说明机器学习装置200的动作的流程图。图7是说明机器学习装置200的最佳化行为信息输出部205的动作的流程图。图8是表示本专利技术的第2实施方式的伺服控制装置的框图。图9是表示可使用变形例中的、被加权并相加而得的评估函数来选择的位置偏差的波形的特性图。图10是表示可使用其他变形例中的、被加权并相加而得的评估函数来选择的位置偏差的波形的特性图。具体实施方式以下,针对本专利技术的实施方式使用附图进行详细地说明。(第1实施方式)图1是表示专利技术的第1实施方式的伺服控制系统的框图。伺服控制系统10如图1所示,具备n台伺服控制装置100-1~100-n、n台机器学习装置200-1~200-n以及网络400。此外,n为任意的自然数。在此,伺服控制装置100-1与机器学习装置200-1被设为1对1的组合,并可通信地连接。对于伺服控制装置100-2~100-n与机器学习装置200-2~100-n,也与伺服控制装置100-1和机器学习装置200-1同样地连接。在图1中,经由网络400连接伺服控制装置100-1~100-n与机器学习装置200-1~200-n的n个组合。但是,对于伺服控制装置100-1~100-n与机器学习装置200-1~200-n的n个组合,也可以经由连接接口直接连接各个组合的伺服控制装置与机器学习装置。这些伺服控制装置100-1~100-n与机器学习装置200-1~200-n的n个本文档来自技高网...
伺服控制装置及系统、机器学习装置及方法

【技术保护点】
1.一种机器学习装置,其针对具备速度前馈计算部的伺服控制装置进行机器学习,所述速度前馈计算部根据位置指令制作速度前馈值,该机器学习装置的特征在于,具备:状态信息取得部,其通过使所述伺服控制装置执行预定的加工程序,而从所述伺服控制装置取得状态信息,所述状态信息包括至少包含位置偏差的伺服状态以及所述速度前馈计算部的传递函数的系数的组合;行为信息输出部,其向所述伺服控制装置输出包含所述状态信息所包括的所述系数的组合的调整信息的行为信息;回报输出部,其输出基于所述状态信息所包括的所述位置偏差的、强化学习中的回报的值;以及价值函数更新部,其根据由所述回报输出单元输出的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。

【技术特征摘要】
2017.03.15 JP 2017-0496081.一种机器学习装置,其针对具备速度前馈计算部的伺服控制装置进行机器学习,所述速度前馈计算部根据位置指令制作速度前馈值,该机器学习装置的特征在于,具备:状态信息取得部,其通过使所述伺服控制装置执行预定的加工程序,而从所述伺服控制装置取得状态信息,所述状态信息包括至少包含位置偏差的伺服状态以及所述速度前馈计算部的传递函数的系数的组合;行为信息输出部,其向所述伺服控制装置输出包含所述状态信息所包括的所述系数的组合的调整信息的行为信息;回报输出部,其输出基于所述状态信息所包括的所述位置偏差的、强化学习中的回报的值;以及价值函数更新部,其根据由所述回报输出单元输出的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。2.根据权利要求1所述的机器学习装置,其特征在于,所述回报输出部根据所述位置偏差的绝对值来输出所述回报的值。3.根据权利要求1或2所述的机器学习装置,其特征在于,所述回报输出部计算至少基于包含所述位置偏差以及所述位置偏差的微分值的值的回报的值。4.根据权利要求1或2所述的机器学习装置,其特征在于,所述状态信息取得部还观测从所述伺服状态所包含的速度指令值发生变化起到所述位置偏差收敛在预定的范围内为止的时间T,所述回报输出部至少根据包含所述位置偏差以及所述时间T的长度的值,来计算回报的值。5.根据权利要求1或2所述的机器学习装置,其特征在于,所述状态信息取得部还从所述伺服控制装置取得扭矩指令,所述回报输出部至少根据包含所述位置偏差以及所述扭矩指令的微分值的值,来计算回报的值。...

【专利技术属性】
技术研发人员:恒木亮太郎猪饲聪史园田直人
申请(专利权)人:发那科株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1