The present disclosure provides a control device and a control method capable of using an artificial neural network for optimal control. A control device (1) for the optimal control based on path integration: a neural network (3), a dynamic model and a cost function after machine learning; the input unit (2), which inputs the current state of the control object (50) and the initial operation sequence of the control object (50) to the neural network (3); and the output unit (4). Its output is used to control the sequence of operations of the control object (50), which is an operation sequence calculated by the path integral using the dynamic model and the cost function, the cost function, the current state and the initial operation quantity sequence, and the neural network department (3) including a first recurrent neural network inside. Second recurrent neural network, the first loop neural network has a dynamic model.
【技术实现步骤摘要】
控制装置以及控制方法
本公开涉及控制装置以及控制方法,特别涉及使用了神经网络的控制装置以及控制方法。
技术介绍
作为最优控制之一,已知路径积分控制(例如,参照非专利文献1)。最优控制能够推测控制对象的系统的将来的状态以及回报,作为用于求解最优的操作量序列的结构来掌握。最优控制能够作为带限制的最优化问题来公式化。另一方面,卷积神经网络等深度神经网络已被很好地适用于自动驾驶以及机器人操作等的控制。现有技术文献非专利文献1:ModelPredictivePathIntegralControl:FromTheorytoParallelComputationhttps://arc.aiaa.org/doi/full/10.2514/1.G001921.[平成29年9月29日检索],互联网<URL:https://arc.aiaa.org/doi/full/10.2514/1.G001921>非专利文献2:AvivTamar,YiWu,GarrettThomas,SergeyLevine,andPieterAbbeel,"ValueIterationNetworks",NIPS2016.
技术实现思路
专利技术要解决的技术问题然而,在非专利文献1等的现有最优控制中,存在如下问题:为了预测该系统的将来状态以及将来回报,需要确定该系统的动态,且需要利用成本函数,但是记述动态以及成本函数却很困难。另外,即使使用卷积神经网络等深度神经网络,也存在不能进行最优控制这一问题。这是因为:卷积神经网络等深度神经网络无论怎么学习,也只会反射性地成长。本公开是鉴于 ...
【技术保护点】
1.一种控制装置,用于进行基于路径积分的最优控制,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数而根据所述当前状态和所述初始操作量序列通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。
【技术特征摘要】
2017.10.26 JP 2017-207450;2017.01.31 US 62/4526141.一种控制装置,用于进行基于路径积分的最优控制,所述控制装置具备:神经网络,其具有机器学习后的动态模型以及成本函数;输入部,其将控制对象的当前状态和初始操作量序列输入到所述神经网络,所述初始操作量序列是以对所述控制对象的多个操作参数为成分的操作量序列;以及输出部,其输出用于控制所述控制对象的操作量序列,所述用于控制所述控制对象的操作量序列是所述神经网络使用所述动态模型以及所述成本函数而根据所述当前状态和所述初始操作量序列通过路径积分算出的操作量序列,所述神经网络包括在内部具有第1循环神经网络的第2循环神经网络,所述第1循环神经网络具有所述动态模型。2.根据权利要求1所述的控制装置,所述第2循环神经网络具备:第1处理部,其具有所述第1循环神经网络和所述成本函数,使所述第1循环神经网络根据所述当前状态和所述初始操作量序列而通过蒙特卡罗法来算出各时刻的状态,使用所述成本函数来算出所述多个状态的成本;以及第2处理部,其基于所述初始操作量序列和所述多个状态的成本,算出对所述控制对象的操作量序列,所述第2处理部将所算出的操作量序列输出到所述输出部,并且作为所述初始操作量序列反馈给所述第2循环神经网络,所述第2循环神经网络使所述第1处理部根据由所述第2处理部反馈的操作量序列和所述当前状态来算出所述各时刻的接下来的各时刻的多个状态的成本。3.根据权利要求2所述的控制装置,所述第2循环神经网络还具备第3处理部,...
【专利技术属性】
技术研发人员:冈田雅司,
申请(专利权)人:松下电器美国知识产权公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。