The aim of the invention is to provide even the deviation between the model and the real machine (model error) occurs, it could be operated and no adverse influence on the running state of the control object operation control device and operation control method. An operation control method, and control the derived evaluation is the control deviation between the control volume control object and its target value based on the value of the maximum or minimum amount of operation, which is characterized in that the characteristics of the control object of the simulation model, the model for the object, the calculation of maximum or minimum operation the value evaluation model based on deviation control, according to control deviation by the operational capacity of the above control object were control to calculate the evaluation value, according to the evaluation model of the value of the control deviation and the deviation evaluation to control deviation as the value of the change, to determine the magnitude that amount of operation amount of operation of the current step and the next step is determined by the difference of the amount of operation.
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及应用无教师学习的运转控制装置和运转控制方法。
技术介绍
近年,在无教师学习领域中,盛行研究被称为强化学习的方法。众所 周知强化学习,是通过与控制对象等环境的试行错误的相互作用,生成对 环境的操作信号的学习控制的框架,以使从环境得到的测量信号是合乎需 要的。在强化学习中,使用从环境得到的测量信号而计算的标量的评价值 (在强化学习中被称为报酬)需要时间,为了使从现状态到将来得到的评 价值的期待值变为最大,具有生成对环境的操作信号的学习功能。作为执行这样的学习功能的方法,例如有Actor—Critic、 Q学习、实时Dynamic Programming等算法。另外,作为发展上述方法的强化学习的框架,有被称为Dyna—体系 结构的框架。这是事先学习将模拟控制对象的模型为对象而生成哪种操作 信号好,使用该学习结果确定对控制对象施加的操作信号的方法。另外, 具有减小控制对象与模型的误差的模型调整功能。另外,作为应用强化学习的技术,列举专利文献1中所述的技术。这 是,具有多个强化学习模块,其为模型和具有学习功能的系统组,求出各 强化学习模块中的模型和控制对象的预测误差越小越取大的值的责任信 号,与该责任信号成比例,加权由各强化学习模块生成的对控制对象的操 作信号,确定对控制对象施加的操作信号的技术。专利文献1:特开2000 — 35956号公报在控制对象的特性复杂,难以使用能够完全模拟该特性的模型时,构 成上述Dyna—体系结构的模型与控制对象的特性有可能不同。此时,使 用专利文献l的技术,对于模型即使学习有效的操作方法,该操作方法对 控制对象而言有 ...
【技术保护点】
一种控制装置的运转控制方法,导出并控制使基于控制对象的控制量与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量,其特征在于, 具有模拟上述控制对象的特性的模型, 以上述模型为对象,计算使基于模型的控制偏差的评价值取最大或者最小的操作量, 根据由上述操作量对上述控制对象进行了控制时的控制偏差来计算评价值, 根据上述模型的控制偏差的评价值与上述控制对象的控制偏差的评价值的偏差,确定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅度。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:关合孝朗,清水悟,山田昭彦,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。