机器学习装置、伺服控制系统以及机器学习方法制造方法及图纸

技术编号:19545871 阅读:23 留言:0更新日期:2018-11-24 20:58
提供机器学习装置、伺服控制系统以及机器学习方法。根据电动机的相位适当调整控制器增益。对控制具备电动机的控制对象装置的动作的伺服控制装置进行强化学习的机器学习装置具备:行为信息输出单元,其对伺服控制装置具备的控制器输出包括控制器增益的传输函数的系数的调整信息的行为信息;状态信息取得单元,其从伺服控制装置取得状态信息,该状态信息包括在控制器根据行为信息使控制对象装置动作时被输入到控制器的指令与控制对象装置的实际动作之间的偏差、电动机的相位、控制器增益的传输函数的系数;根据状态信息中包括的偏差来输出强化学习的回报值的回报输出单元和根据回报值、状态信息、行为信息来更新行为价值函数的价值函数更新单元。

Machine Learning Device, Servo Control System and Machine Learning Method

Provides machine learning devices, servo control systems and machine learning methods. The controller gain is adjusted according to the phase of the motor. The machine learning device for reinforcement learning of the servo control device which controls the action of the control object device with the motor includes: behavior information output unit, behavior information output of the controller which the servo control device possesses, including the adjustment information of the coefficient of the transfer function of the controller gain, and status information acquisition unit. The state information is obtained from the servo control device, which includes the deviation between the command input to the controller and the actual action of the control device, the phase of the motor and the coefficient of the transfer function of the controller gain when the controller makes the control device act according to the state information. The deviations included are the output unit of reward for output reinforcement learning and the value function updating unit for updating behavioral value function based on reward value, state information and behavioral information.

【技术实现步骤摘要】
机器学习装置、伺服控制系统以及机器学习方法
本专利技术涉及用于进行伺服控制相关的机器学习的机器学习装置、伺服控制系统以及机器学习方法。
技术介绍
目前,已知一种技术,通过进行伺服控制相关的机器学习,适当地控制作为伺服控制的对象的机床等。例如在专利文献1中公开的技术中,作为状态观测关于主轴的负荷、温度以及振动。然后通过基于该观测到的状态的强化学习来学习用于修正动作指令的价值函数。学习结束后,通过使用这样学习到的价值函数,能够不需要操作员进行的修正操作而根据状况来修正动作指令。但是,如果使伺服电动机等电动机驱动,则电动机的电感会随着电动机的相位而发生变化。因此如果用于控制电动机驱动的控制器增益为恒定,则会随着电感的变化而产生电动机的旋转不均(ムラ)。为了抑制该旋转不均,需要根据电动机的相位来调整控制器增益。但是,在一般技术中,不根据电动机的相位来调整控制器增益。例如,在上述专利文献1公开的技术中,记载了根据负荷、温度以及振动来修正赋予机床的动作指令的情况,但是没有记载考虑电动机的相位和调整控制器增益的情况。另外,即使假设在一般技术中调整控制器增益,电动机的电感也会根据电动机的相位在非常短的时间内瞬间变化,所以该调整并非易事。专利文献1:日本特开平7-210207号公报
技术实现思路
本专利技术鉴于这种情况进行的,其目的为提供能够根据电动机的相位适当地调整控制器增益的机器学习装置、伺服控制系统以及机器学习方法。(1)本专利技术的机器学习装置(例如后述的机器学习装置100),针对控制具备电动机(例如后述的电动机32)的控制对象装置(例如后述的控制对象装置300)的动作的伺服控制装置(例如后述的伺服控制装置200)进行强化学习,具备:行为信息输出单元(例如后述的行为信息输出部13),其针对上述伺服控制装置所具备的控制器(例如后述的位置控制器23、速度控制器25以及电流控制器27)输出包括控制器增益的传输函数的系数的调整信息的行为信息;状态信息取得单元(例如后述的状态信息取得部11),其从上述伺服控制装置取得状态信息,该状态信息包括在上述控制器根据上述行为信息使上述控制对象装置进行动作时被输入到上述控制器的指令与上述控制对象装置的实际动作之间的偏差、上述电动机的相位、上述控制器增益的传输函数的系数;回报输出单元(例如后述的回报输出121),其根据上述状态信息中包括的上述偏差来输出强化学习的回报值;以及价值函数更新单元(例如后述的价值函数更新部122),其根据上述回报值、上述状态信息、上述行为信息来更新行为价值函数。(2)上述(1)记载的机器学习装置可以构成为,上述伺服控制装置进行用于修正被输入到上述控制器的指令的反馈控制,上述状态信息取得单元取得被输入到上述控制器中的指令与上述反馈控制的反馈值之间的差值作为上述偏差。(3)上述(1)或(2)记载的机器学习装置可以构成为,上述控制器是进行位置控制、速度控制以及电流控制中的任意一个的控制器的组合,该机器学习装置在将上述控制器的任意一个作为对象进行了上述强化学习后将其他控制器的一个作为对象进行上述强化学习时,可以按照进行电流控制的控制器、进行速度控制的控制器、进行位置控制的控制器的顺序设为上述强化学习的对象。(4)上述(1)~(3)中的任意一个记载的机器学习装置,可以根据用于控制上述控制对象装置的动作的位置指令来计算上述电动机的相位。(5)上述(1)~(4)中的任意一个记载的机器学习装置可以构成为,上述控制器增益的传输函数可以包括上述电动机的相位作为变量。(6)本专利技术的伺服控制系统具备上述(1)~(5)中的任意一个记载的机器学习装置和上述伺服控制装置,上述伺服控制装置具备:相位计算单元(例如后述的相位计算部21),其根据用于控制上述控制对象装置的动作的位置指令来计算上述电动机的相位,并将计算出的电动机的相位输出给上述状态信息取得单元以及上述控制器。(7)本专利技术的机器学习方法为针对控制具备电动机(例如后述的电动机32)的控制对象装置(例如后述的控制对象装置300)的动作的伺服控制装置(例如后述的伺服控制装置200)进行强化学习的机器学习装置(例如后述的机器学习装置100)的学习方法,具备:行为信息输出步骤,针对上述伺服控制装置所具备的控制器(例如后述的位置控制器23、速度控制器25以及电流控制器27)输出包括控制器增益的传输函数的系数的调整信息的行为信息;状态信息取得步骤,从上述伺服控制装置取得状态信息,该状态信息包括在上述控制器根据上述行为信息使上述控制对象装置进行动作时被输入到上述控制器的指令与上述控制对象装置的实际动作之间的偏差、上述电动机的相位、上述控制器增益的传输函数的系数;回报输出步骤,根据上述状态信息中包括的上述偏差来输出强化学习的回报值;以及价值函数更新步骤,根据上述回报值、上述状态信息、上述行为信息来更新行为价值函数。根据本专利技术,能够根据电动机的相位适当地调整控制器增益。附图说明图1是表示本专利技术实施方式整体的基本结构的功能框图。图2是表示本专利技术实施方式的伺服控制装置的结构要素以及控制对象装置的结构要素和信号的流动的功能框图。图3是用于说明本专利技术实施方式的电动机相位的计算的示意图。图4是表示本专利技术实施方式的机器学习装置的结构的功能框图。图5是用于说明本专利技术实施方式的机器学习装置的机器学习时的动作的流程图。图6是用于说明本专利技术实施方式的机器学习装置的输出最优化行为信息时的动作的流程图。图7是用于说明本专利技术实施方式所产生的效果的示意图。附图标记的说明1:伺服控制系统、100:机器学习装置、11:状态信息取得部、12:学习部、121:回报输出部、122:价值函数更新部、123:行为信息生成部、13:行为信息输出部、14:价值函数存储部、15:最优化行为信息输出部、200:伺服控制装置、21:相位计算部、22、24、26:减法器、23:位置控制器、25:速度控制器、27:电流控制器、28:积分器、300:控制对象装置、31:驱动用放大器、32:电动机、33:机器。具体实施方式以下,使用附图详细说明本专利技术的实施方式。<实施方式的整体结构>图1是表示实施方式的伺服控制系统1的整体结构的功能框图。如图1所示,伺服控制系统1包括机器学习装置100、伺服控制装置200以及控制对象装置300。机器学习装置100是为了调整伺服控制装置200的控制器增益而进行机器学习的装置。机器学习装置100通过机器学习求出控制器增益的传输函数的最优系数。机器学习装置100能够通过个人电脑、服务器或数值控制装置(CNC:ComputerizedNumericalControl计算机数字控制)等来实现。伺服控制装置200是通过进行反馈控制来控制控制对象装置300的驱动。另外,伺服控制装置200的控制器增益的传输函数的系数由机器学习装置100来进行调整。控制对象装置300是具备通过伺服控制装置200的控制进行驱动的伺服电动机的装置。控制对象装置300例如能够通过机床、机器人、工业机械等实现。上述伺服控制装置200可以作为单独的装置来实现,但是也可以作为这些机床、机器人、工业机械等的一部分来实现。机器学习装置100以及伺服控制装置200可通信地连接。另外,伺服控制装置200以本文档来自技高网...

【技术保护点】
1.一种机器学习装置,对控制具备电动机的控制对象装置的动作的伺服控制装置进行强化学习,其特征在于,该机器学习装置具备:行为信息输出单元,其对上述伺服控制装置所具备的控制器输出包括控制器增益的传输函数的系数的调整信息的行为信息;状态信息取得单元,其从上述伺服控制装置取得状态信息,该状态信息包括在上述控制器根据上述行为信息使上述控制对象装置进行动作时被输入到上述控制器的指令与上述控制对象装置的实际动作之间的偏差、上述电动机的相位、上述控制器增益的传输函数的系数;回报输出单元,其根据上述状态信息中包括的上述偏差来输出强化学习的回报值;以及价值函数更新单元,其根据上述回报值、上述状态信息、上述行为信息来更新行为价值函数。

【技术特征摘要】
2017.05.16 JP 2017-0975271.一种机器学习装置,对控制具备电动机的控制对象装置的动作的伺服控制装置进行强化学习,其特征在于,该机器学习装置具备:行为信息输出单元,其对上述伺服控制装置所具备的控制器输出包括控制器增益的传输函数的系数的调整信息的行为信息;状态信息取得单元,其从上述伺服控制装置取得状态信息,该状态信息包括在上述控制器根据上述行为信息使上述控制对象装置进行动作时被输入到上述控制器的指令与上述控制对象装置的实际动作之间的偏差、上述电动机的相位、上述控制器增益的传输函数的系数;回报输出单元,其根据上述状态信息中包括的上述偏差来输出强化学习的回报值;以及价值函数更新单元,其根据上述回报值、上述状态信息、上述行为信息来更新行为价值函数。2.根据权利要求1所述的机器学习装置,其特征在于,上述伺服控制装置是进行用于修正被输入到上述控制器的指令的反馈控制的伺服控制装置,上述状态信息取得单元取得被输入到上述控制器中的指令与上述反馈控制的反馈值之间的差值作为上述偏差。3.根据权利要求1或2所述的机器学习装置,其特征在于,上述控制器是进行位置控制、速度控制以及电流控制中的任意一个的控制器的组合,该机器学习装置在将上述控制器的任意一个作为对象进行了上述强化学习后,将其他控制器的一个作为对象进行上述强化学习时,按照进行电流控制的控制器、进行...

【专利技术属性】
技术研发人员:筱田翔吾猪饲聪史
申请(专利权)人:发那科株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1