控制装置以及控制方法制造方法及图纸

技术编号:18621417 阅读:113 留言:0更新日期:2018-08-08 00:33
本公开提供能够使用神经网络进行最优控制的控制装置以及控制方法。用于进行基于路径积分的最优控制的控制装置(1)具备:神经网络部(3),其具有机器学习后的动态模型以及成本函数;输入部(2),其将控制对象(50)的当前状态和对控制对象(50)的初始操作量序列输入到神经网络部(3);以及输出部(4),其输出用于控制控制对象(50)的操作量序列,该操作量序列是神经网络部(3)使用该动态模型以及该成本函数、根据当前状态和初始操作量序列而通过路径积分算出的操作量序列,神经网络部(3)包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网具有动态模型。

Control device and control method

The present disclosure provides a control device and a control method capable of using an artificial neural network for optimal control. A control device (1) for the optimal control based on path integration: a neural network (3), a dynamic model and a cost function after machine learning; the input unit (2), which inputs the current state of the control object (50) and the initial operation sequence of the control object (50) to the neural network (3); and the output unit (4). Its output is used to control the sequence of operations of the control object (50), which is an operation sequence calculated by the path integral using the dynamic model and the cost function, the cost function, the current state and the initial operation quantity sequence, and the neural network department (3) including a first recurrent neural network inside. Second recurrent neural network, the first loop neural network has a dynamic model.

【技术实现步骤摘要】
控制装置以及控制方法
本公开涉及控制装置以及控制方法,特别涉及使用了神经网络的控制装置以及控制方法。
技术介绍
作为最优控制之一,已知路径积分控制(例如,参照非专利文献1)。最优控制能够推测控制对象的系统的将来的状态以及回报,作为用于求解最优的操作量序列的结构来掌握。最优控制能够作为带限制的最优化问题来公式化。另一方面,卷积神经网络等深度神经网络已被很好地适用于自动驾驶以及机器人操作等的控制。现有技术文献非专利文献1:ModelPredictivePathIntegralControl:FromTheorytoParallelComputationhttps://arc.aiaa.org/doi/full/10.2514/1.G001921.[平成29年9月29日检索],互联网<URL:https://arc.aiaa.org/doi/full/10.2514/1.G001921>非专利文献2:AvivTamar,YiWu,GarrettThomas,SergeyLevine,andPieterAbbeel,"ValueIterationNetworks",NIPS2016.
技术实现思路
专利技术要解决的技术问题然而,在非专利文献1等的现有最优控制中,存在如下问题:为了预测该系统的将来状态以及将来回报,需要确定该系统的动态,且需要利用成本函数,但是记述动态以及成本函数却很困难。另外,即使使用卷积神经网络等深度神经网络,也存在不能进行最优控制这一问题。这是因为:卷积神经网络等深度神经网络无论怎么学习,也只会反射性地成长。本公开是鉴于上述情况而完成的,其目的在于,提供能够使用神经网络进行最优控制的控制装置以及控制方法。用于解决问题的技术方案为了解决上述问题,本公开的一个技术方案的控制装置是用于进行基于路径积分的最优控制的控制装置,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数而根据所述当前状态和所述初始操作量序列通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。此外,这些概括性或具体的技术方案既可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序和记录介质的任意组合来实现。专利技术的效果根据本公开的控制装置等,能够使用神经网络进行最优控制。附图说明图1是表示实施方式的控制装置的构成的一例的框图。图2是表示图1所示的神经网络部的构成的一例的框图。图3A是表示图2所示的算出部的构成的一例的框图。图3B是表示图2所示的算出部的详细构成的一例的图。图4是表示图3B所示的蒙特卡罗模拟器部的详细构成的一例的图。图5是表示图3B所示的第2处理部的详细构成的一例的图。图6是表示实施方式的控制装置的处理的流程图。图7是表示实施方式中的学习处理的概念图的一例的图。图8是表示实施方式中的学习处理的概要的流程图。图9是表示实验的控制模拟结果的图。图10A是表示真(True)的成本函数的图。图10B是表示学习后的路径积分控制神经网络的成本函数的图。图10C是表示学习后的比较例的神经网络的成本函数的图。图11是表示变形例1中的神经网络部的构成的一例的框图。标号的说明1控制装置;2输入部;3、3b、30神经网络部;4输出部;5教师数据;13算出部;13a、141a循环神经网络;14第1处理部;15第2处理部;16第3处理部;17、142、162保存部;31乘法运算器;32加法运算器;33延迟部;50控制对象;141蒙特卡罗模拟器部;151成本累计部;152操作系更新部;161噪声产生部;1411动态模型;1413成本函数模型。具体实施方式(得到本公开的一个技术方案的经过)已知使表示控制的优良性的评价函数达到最小的控制即最优控制。并且,最优控制能够推测控制对象的系统的将来的状态以及回报,作为用于求解最优的操作量序列的结构来掌握。最优控制能够作为带限制的最优化问题来公式化。另外,作为最优控制之一,已知路径积分控制(例如,参照非专利文献1)。在非专利文献1中记载了:使用基于轨迹的概率采样的蒙特卡罗近似,以数学方式求解路径积分来作为概率最优控制问题,由此进行路径积分控制。然而,在非专利文献1等的现有最优控制中,为了预测该系统的将来状态以及将来回报,需要利用确定了该系统的动态后的模型和成本函数,但是记述动态以及成本函数却很困难。这是因为:虽然在该系统的模型完全已知的情况下能够记述包括复杂方程式和大量参数的动态,但是这样的情况却很少。特别是,难以记述大量的参数。同样地,对于为了评价回报而使用的成本函数,虽然在能够完全已知或者完全模拟该系统的从当前状态到将来状态之间的环境的全部状况的变化的情况下才能够记述,但是这样的情况却很少。成本函数是为了进行目标控制而使用权重等参数以函数方式记述希望是何种状态的函数。因此,特别是,难以最优地记述权重等参数。另一方面,如上所述,近年来,在自动驾驶以及机器人操作等的控制中,很好地适用了卷积神经网络等深度神经网络。并且,对于这样的深度神经网络,通过基于教师数据的模仿学习或强化学习,可被训练成输出所希望的操作量。因此,考虑使用卷积神经网络等深度神经网络来进行最优控制。这是因为,认为:如果能够使用这样的深度神经网络来进行最优控制,则能够学习最优控制所需的动态以及成本函数、或者特别是难以记述的它们的参数。然而,即使使用卷积神经网络等深度神经网络,也不能进行最优控制。这是因为这样的深度神经网络无论怎么学习都只会反射性地成长。也就是说,是因为这样的深度神经网络无论怎样学习都无法获得推测等泛化能力。鉴于以上的事情,专利技术人想到了能够使用神经网络进行最优控制的控制装置以及控制方法。即,本公开的一个技术方案的控制装置是用于进行基于路径积分的最优控制的控制装置,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数根据所述当前状态和所述初始操作量序列而通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。通过该构成,能够使包括双重循环神经网络的神经网络进行基于路径积分的最优控制,因此能够使用神经网络来进行最优控制。在此,例如也可以是,所述第2循环神经网络具备:第1处理部,其具有所述第1循环神经网络和所述成本函数,使所述第1循环神经网络根据所述当前状态和所述初始操作量序列而利用蒙特卡罗法来算出各时刻的状态,使用所述本文档来自技高网...

【技术保护点】
1.一种控制装置,用于进行基于路径积分的最优控制,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数而根据所述当前状态和所述初始操作量序列通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。

【技术特征摘要】
2017.10.26 JP 2017-207450;2017.01.31 US 62/4526141.一种控制装置,用于进行基于路径积分的最优控制,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数而根据所述当前状态和所述初始操作量序列通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。2.根据权利要求1所述的控制装置,所述第2循环神经网络具备:第1处理部,其具有所述第1循环神经网络和所述成本函数,使所述第1循环神经网络根据所述当前状态和所述初始操作量序列而通过蒙特卡罗法来算出各时刻的状态,使用所述成本函数来算出所述多个状态的成本;以及第2处理部,其基于所述初始操作量序列和所述多个状态的成本,算出对所述控制对象的操作量序列,所述第2处理部将所算出的操作量序列输出到所述输出部,并且作为所述初始操作量序列反馈给所述第2循环神经网络,所述第2循环神经网络使所述第1处理部根据由所述第2处理部反馈的操作量序列和所述当前状态来算出所述各时刻的接下来的各时刻的多个状态的成本。3.根据权利要求2所述的控制装置,所述第2循环神经网络还具备第3处理部,...

【专利技术属性】
技术研发人员:冈田雅司
申请(专利权)人:松下电器美国知识产权公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1