Provides machine learning devices, servo control systems and machine learning methods. The controller gain is adjusted according to the phase of the motor. The machine learning device for reinforcement learning of the servo control device which controls the action of the control object device with the motor includes: behavior information output unit, behavior information output of the controller which the servo control device possesses, including the adjustment information of the coefficient of the transfer function of the controller gain, and status information acquisition unit. The state information is obtained from the servo control device, which includes the deviation between the command input to the controller and the actual action of the control device, the phase of the motor and the coefficient of the transfer function of the controller gain when the controller makes the control device act according to the state information. The deviations included are the output unit of reward for output reinforcement learning and the value function updating unit for updating behavioral value function based on reward value, state information and behavioral information.
【技术实现步骤摘要】
机器学习装置、伺服控制系统以及机器学习方法
本专利技术涉及用于进行伺服控制相关的机器学习的机器学习装置、伺服控制系统以及机器学习方法。
技术介绍
目前,已知一种技术,通过进行伺服控制相关的机器学习,适当地控制作为伺服控制的对象的机床等。例如在专利文献1中公开的技术中,作为状态观测关于主轴的负荷、温度以及振动。然后通过基于该观测到的状态的强化学习来学习用于修正动作指令的价值函数。学习结束后,通过使用这样学习到的价值函数,能够不需要操作员进行的修正操作而根据状况来修正动作指令。但是,如果使伺服电动机等电动机驱动,则电动机的电感会随着电动机的相位而发生变化。因此如果用于控制电动机驱动的控制器增益为恒定,则会随着电感的变化而产生电动机的旋转不均(ムラ)。为了抑制该旋转不均,需要根据电动机的相位来调整控制器增益。但是,在一般技术中,不根据电动机的相位来调整控制器增益。例如,在上述专利文献1公开的技术中,记载了根据负荷、温度以及振动来修正赋予机床的动作指令的情况,但是没有记载考虑电动机的相位和调整控制器增益的情况。另外,即使假设在一般技术中调整控制器增益,电动机的电感也会根据电动机的相位在非常短的时间内瞬间变化,所以该调整并非易事。专利文献1:日本特开平7-210207号公报
技术实现思路
本专利技术鉴于这种情况进行的,其目的为提供能够根据电动机的相位适当地调整控制器增益的机器学习装置、伺服控制系统以及机器学习方法。(1)本专利技术的机器学习装置(例如后述的机器学习装置100),针对控制具备电动机(例如后述的电动机32)的控制对象装置(例如后述的控制对象装置300)的动作 ...
【技术保护点】
1.一种机器学习装置,对控制具备电动机的控制对象装置的动作的伺服控制装置进行强化学习,其特征在于,该机器学习装置具备:行为信息输出单元,其对上述伺服控制装置所具备的控制器输出包括控制器增益的传输函数的系数的调整信息的行为信息;状态信息取得单元,其从上述伺服控制装置取得状态信息,该状态信息包括在上述控制器根据上述行为信息使上述控制对象装置进行动作时被输入到上述控制器的指令与上述控制对象装置的实际动作之间的偏差、上述电动机的相位、上述控制器增益的传输函数的系数;回报输出单元,其根据上述状态信息中包括的上述偏差来输出强化学习的回报值;以及价值函数更新单元,其根据上述回报值、上述状态信息、上述行为信息来更新行为价值函数。
【技术特征摘要】
2017.05.16 JP 2017-0975271.一种机器学习装置,对控制具备电动机的控制对象装置的动作的伺服控制装置进行强化学习,其特征在于,该机器学习装置具备:行为信息输出单元,其对上述伺服控制装置所具备的控制器输出包括控制器增益的传输函数的系数的调整信息的行为信息;状态信息取得单元,其从上述伺服控制装置取得状态信息,该状态信息包括在上述控制器根据上述行为信息使上述控制对象装置进行动作时被输入到上述控制器的指令与上述控制对象装置的实际动作之间的偏差、上述电动机的相位、上述控制器增益的传输函数的系数;回报输出单元,其根据上述状态信息中包括的上述偏差来输出强化学习的回报值;以及价值函数更新单元,其根据上述回报值、上述状态信息、上述行为信息来更新行为价值函数。2.根据权利要求1所述的机器学习装置,其特征在于,上述伺服控制装置是进行用于修正被输入到上述控制器的指令的反馈控制的伺服控制装置,上述状态信息取得单元取得被输入到上述控制器中的指令与上述反馈控制的反馈值之间的差值作为上述偏差。3.根据权利要求1或2所述的机器学习装置,其特征在于,上述控制器是进行位置控制、速度控制以及电流控制中的任意一个的控制器的组合,该机器学习装置在将上述控制器的任意一个作为对象进行了上述强化学习后,将其他控制器的一个作为对象进行上述强化学习时,按照进行电流控制的控制器、进行...
【专利技术属性】
技术研发人员:筱田翔吾,猪饲聪史,
申请(专利权)人:发那科株式会社,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。