运转控制方法、运转控制装置和运转控制系统制造方法及图纸

技术编号:2780920 阅读:114 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的在于提供即使模型和实机之间的偏差(模型误差)产生时,也可以运转而不会对控制对象的运转状态产生坏影响的运转控制装置和运转控制方法。一种运转控制方法,导出并控制使基于控制对象的控制量与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量,其特征在于,具有模拟上述控制对象的特性的模型,以上述模型为对象,计算使基于模型的控制偏差的评价值取最大或者最小的操作量,根据由上述操作量对上述控制对象进行了控制时的控制偏差来计算评价值,根据上述模型的控制偏差的评价值与上述控制对象的控制偏差的评价值的偏差,确定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅度。

Operation control method, operation control device and operation control system

The aim of the invention is to provide even the deviation between the model and the real machine (model error) occurs, it could be operated and no adverse influence on the running state of the control object operation control device and operation control method. An operation control method, and control the derived evaluation is the control deviation between the control volume control object and its target value based on the value of the maximum or minimum amount of operation, which is characterized in that the characteristics of the control object of the simulation model, the model for the object, the calculation of maximum or minimum operation the value evaluation model based on deviation control, according to control deviation by the operational capacity of the above control object were control to calculate the evaluation value, according to the evaluation model of the value of the control deviation and the deviation evaluation to control deviation as the value of the change, to determine the magnitude that amount of operation amount of operation of the current step and the next step is determined by the difference of the amount of operation.

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及应用无教师学习的运转控制装置和运转控制方法。
技术介绍
近年,在无教师学习领域中,盛行研究被称为强化学习的方法。众所 周知强化学习,是通过与控制对象等环境的试行错误的相互作用,生成对 环境的操作信号的学习控制的框架,以使从环境得到的测量信号是合乎需 要的。在强化学习中,使用从环境得到的测量信号而计算的标量的评价值 (在强化学习中被称为报酬)需要时间,为了使从现状态到将来得到的评 价值的期待值变为最大,具有生成对环境的操作信号的学习功能。作为执行这样的学习功能的方法,例如有Actor—Critic、 Q学习、实时Dynamic Programming等算法。另外,作为发展上述方法的强化学习的框架,有被称为Dyna—体系 结构的框架。这是事先学习将模拟控制对象的模型为对象而生成哪种操作 信号好,使用该学习结果确定对控制对象施加的操作信号的方法。另外, 具有减小控制对象与模型的误差的模型调整功能。另外,作为应用强化学习的技术,列举专利文献1中所述的技术。这 是,具有多个强化学习模块,其为模型和具有学习功能的系统组,求出各 强化学习模块中的模型和控制对象的预测误差越小越取大的值的责任信 号,与该责任信号成比例,加权由各强化学习模块生成的对控制对象的操 作信号,确定对控制对象施加的操作信号的技术。专利文献1:特开2000 — 35956号公报在控制对象的特性复杂,难以使用能够完全模拟该特性的模型时,构 成上述Dyna—体系结构的模型与控制对象的特性有可能不同。此时,使 用专利文献l的技术,对于模型即使学习有效的操作方法,该操作方法对 控制对象而言有可能变得无效。另外,由于将基于学习的操作方法的操作信号施加到控制对象,也有可能使控制对象的运转状态恶化。
技术实现思路
本专利技术目的在于提供,即使模型和实机之间产生偏差(模型误差)时, 也可以运转而不会对控制对象的运转状态带来坏影响的运转控制装置,和 运转控制方法。一种控制装置的运转控制方法,导出并控制使基于控制对象的控制量 与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量,其 特征在于,具有模拟上述控制对象的特性的模型,以上述模型为对象,计 算使基于模型的控制偏差的评价值取最大或者最小的操作量,根据由上述 操作量对上述控制对象进行了控制时的控制偏差来计算评价值,根据上述 模型的控制偏差的评价值与上述控制对象的控制偏差的评价值的偏差,确 定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅 度。本专利技术,能够在即使产生模型误差时,也可以运转而不会对控制对象 的运转状态带来坏影响。附图说明图1是说明将对本专利技术的控制装置应用为控制对象的例子的图。图2是说明保存在操作信号生成参数存储部中的数据形式的图。图3是说明图像显示装置中显示的画面的图。图4是说明操作信号生成参数更新部的处理的图。图5是说明模型特性的图。图6是说明每个步骤的到达点的图。图7是说明控制对象和模型特性的不同点的图。图8是说明本专利技术的操作方法的图。图9是说明修正后模型特性的图。图10是说明的图。图11是说明步骤数和操作量变化幅度关系的图。 图12是评价值计算的一个例子。图13是用于确定操作量的表格的一个例子。图14是表示在画面上显示操作量的空间和评价值的关系的例子。图中10 —图像显示装置,20 —外部输入装置,30 —键盘,40—鼠标,100 一控制对象,200 —控制装置,300 —操作信号生成部,400 —模型部,500、 510 —评价值计算部,600 —操作信号生成参数存储部,700 —操作信号生 成参数更新部,800—模型参数存储部,900 —模型参数更新部。具体实施例方式以下,参照附图对用于实施专利技术的一个例子进行说明。图l是对将本 专利技术中的控制装置200应用于控制对象100的例子进行说明的图。控制装置200中配备的操作信号生成部300,生成对控制对象施加的 操作信号201。另外,在评价值计算部500中,使用来自控制对象的测量 信号202计算评价值信号203。操作信号生成部300,接收该评价值信号 203。在操作信号生成部300中,具有以从现状态到将来的评价值信号203 的期待值总和变为最大,或者最小的方式,生成操作信号201的功能。以 下,对操作信号生成部300中,使评价值信号203的期待值总和变为最大, 生成操作信号201的情况进行说明。在评价值计算部500中,生成与测量信号202及其目标值之间的偏差 相对应的评价值信号203。例如,测量信号202与目标值一致时,评价值 信号203设为"1",不一致时设定为"0"。或者,设定评价值信号203, 以使测量信号202及其目标值的之间的偏差成反比例。即,如后面所述的 图5所述,评价值如+30那样数值越大越接近目标,如一30那样数值越 小越远离目标。此时的评价值的计算能够采取多种方法。图12表示评价 值计算的一个例子。具有控制量和目标值之差与评价值相对应的表格,能 够参照其生成评价值。另外,还能够设定作为控制量和目标值之差的函数 并计算评价值。列举使用强化学习的方法,作为装备操作信号生成部300的方法。在 强化学习中,在学习的初始阶段中,试行错误地生成操作信号201。然后,随着学习进行,生成评价值信号203变大这样的操作信号201。这样的学习算法,能够使用例如Actor—Critic、 Q学习等算法。图1的控制装置,使用被称为Dyna—体系结构的框架。这是,具有 模拟控制对象100的模型部400,学习在操作信号生成部300中事先以模 型部400为对象生成操作信号1201的生成方法,使用其学习结果生成操 作信号201的框架。操作信号生成部300,具有生成向模型部400输入的操作信号204, 接收来自模型部400的测量信号205和评价值信号206的功能。该评价值 信号206,在评价值计算部510中,使用测量信号205计算。评价值计算 部510,具有与评价值计算部500 —样的功能。操作信号生成部300,参照操作信号生成参数存储部600中保存的数 据,确定对控制对象100施加的操作信号201。图2是说明保存在操作信号生成参数存储部600中的数据形式的图。 如图2所示,操作信号生成参数存储部600中保存对控制对象100设置的 操作端的名称、其操作量每1周期的变化幅度和与单位相关的数据。操作 端,能够在操作量变化幅度范围内增加或者减少操作量。并且,图2记载了操作端的数量为多个的情况,操作端的数量也可以 为1个。另外,图2中对每个操作端记载操作变化幅度,也可以将多个操 作端总括为一个,限制其操作端的变化幅度之和。图2的操作量变化幅度的限制值,在操作信号生成参数更新部700中 确定。参数更新处理中需要的设定值,能够从由键盘30和鼠标40构成的外 部输入装置20输入。这些信息,能够在CRT等图像显示装置10上显示。 控制对象IOO的操作员,使用图像显示装置10和外部输入装置20,输入 设定值214。图3是图像显示装置10中显示的画面的例子。通过该画面,操作员 能够设定操作端的操作量变化幅度的初始值,上限、下限,和更新率。使 用图4对这里设定的设定值的使用方法进行说明。图4是说明操作信号生 成参数更新部700中的处理的图。以下本文档来自技高网
...

【技术保护点】
一种控制装置的运转控制方法,导出并控制使基于控制对象的控制量与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量,其特征在于, 具有模拟上述控制对象的特性的模型, 以上述模型为对象,计算使基于模型的控制偏差的评价值取最大或者最小的操作量, 根据由上述操作量对上述控制对象进行了控制时的控制偏差来计算评价值, 根据上述模型的控制偏差的评价值与上述控制对象的控制偏差的评价值的偏差,确定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅度。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:关合孝朗清水悟山田昭彦
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利