模型选择装置、模型选择方法和非临时性计算机可读介质制造方法及图纸

技术编号：39570167 阅读：11 留言：0更新日期：2023-12-03 19:21

本发明专利技术提供模型选择装置、模型选择方法和非临时性计算机可读介质，模型选择装置包括：存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将输出评价了设备的状态的指标的评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与所述设备中的状态对应的行动；状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及对象模型输出部，输出所述对象模型。输出所述对象模型。输出所述对象模型。

全部详细技术资料下载

【技术实现步骤摘要】
模型选择装置、模型选择方法和非临时性计算机可读介质

[0001]本专利技术涉及模型选择装置、模型选择方法和非临时性计算机可读介质。

技术介绍

[0002]在专利文献1中记载了“模型45输出推荐控制参数，该推荐控制参数表示为了根据测量数据的输入来提高回报值而推荐的第一种控制内容”。此外，在非专利文献1中记载了一种“FKDPP(Factorial Kernel Dynamic Policy Programming，阶乘内核动态策略规划)”。
[0003]现有技术文献
[0004]专利文献1：日本专利公开公报特开2021
‑
086283
[0005]非专利文献1：“横河电机和NAIST面向化学工厂的强化学习”、日经Robotics 2019年3月号

技术实现思路

[0006]在本专利技术的第一方式中提供一种模型选择装置。所述模型选择装置包括：存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及对象模型输出部，输出所述对象模型。/>[0007]在所述模型选择装置中，可以是所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。
[0008]在所述模型选择装置中的任意一个中，可以是所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。
[0009]在所述模型选择装置中的任意一个中，可以是所述统计量包含平均值和最小值中的至少任意一个。
[0010]在所述模型选择装置中的任意一个中，可以是所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。
[0011]在所述模型选择装置中的任意一个中，可以是所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。
[0012]所述模型选择装置中的任意一个也可以还包括根据输出了所述对象模型而接收用户输入的输入部。
[0013]所述模型选择装置中的任意一个也可以还包括使用所述对象模型对所述控制对
象进行控制的控制部。
[0014]所述模型选择装置中的任意一个也可以还包括通过所述强化学习生成成为所述多个候选模型的多个作业模型的作业模型生成部。
[0015]所述模型选择装置中的任意一个也可以还包括存储所述评价模型的评价模型存储部。
[0016]所述模型选择装置中的任意一个也可以还包括通过机器学习生成所述评价模型的评价模型生成部。
[0017]在本专利技术的第二方式中提供一种模型选择方法。由计算机执行所述模型选择方法，所述模型选择方法包括：存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及输出所述对象模型。
[0018]在本专利技术的第三方式中提供一种记录有模型选择程序的非临时性计算机可读介质。计算机通过执行所述模型选择程序而发挥作为候选模型存储部、状态数据取得部、指标取得部、模型选择部和对象模型输出部的功能，所述候选模型存储部存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标，所述状态数据取得部取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据，所述指标取得部取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标，所述模型选择部基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型，所述对象模型输出部输出所述对象模型。
[0019]另外，上述专利技术的概要没有列举出本专利技术的所有特征。此外，这些特征组的子组合也可以成为专利技术。
附图说明
[0020]图1表示控制系统1的框图的一例。
[0021]图2表示评价模型管理装置200的框图的一例。
[0022]图3表示作业模型管理装置300的框图的一例。
[0023]图4表示本实施方式的模型选择装置400的框图的一例。
[0024]图5表示控制装置500的框图的一例。
[0025]图6表示本实施方式的模型选择装置400可执行的模型选择方法的流程图的一例。
[0026]图7表示第一变形例的模型选择装置400的框图的一例。
[0027]图8表示第二变形例的模型选择装置400的框图的一例。
[0028]图9表示第三变形例的模型选择装置400的框图的一例。
[0029]图10表示可以整体或局部实现本专利技术的多种方式的计算机9900的例子。
[0030]附图标记说明
[0031]1控制系统，10设备，15控制对象，100模拟器，200评价模型管理装置，210评价模型生成部，220评价模型存储部，230评价模型输出部，300作业模型管理装置，310评价模型取得部，320作业模型生成部，330作业模型存储部，340作业模型输出部，400模型选择装置，410候选模型取得部，420候选模型存储部，430状态数据取得部，440指标取得部，450模型选择部，460对象模型输出部，470输入部，500控制装置，510对象模型取得部，520实际环境数据取得部，530控制部，9900计算机，9901DVD
‑
ROM，9910主控制器，9912CPU，9914RAM，9916图形控制器，9918显示装置，9920输入/输出控制器，9922通信接口，9924硬盘驱动器，9926DVD驱动器，9930ROM，9940输入/输出芯片，9942键盘。
具体实施方式
[0032]下面，通过专利技术的实施方式对本专利技术进行说明，但是以下的实施方式并不限定权利要求书所涉及的专利技术。此外，不限于在实施方式中说明的特征的组合的全部是专利技术的解决手段所必须的。
[0033]图1表示控制系统1的框图的一例。另外，这些模块是分别在功能上分离的功能模块，也可以不一定与实际的装置结构一致。即，在本图中，虽然表示为一个模块，但是也可以不一定由本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型选择装置，其特征在于包括：存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及对象模型输出部，输出所述对象模型。2.根据权利要求1所述的模型选择装置，其特征在于，所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。3.根据权利要求2所述的模型选择装置，其特征在于，所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。4.根据权利要求3所述的模型选择装置，其特征在于，所述统计量包含平均值和最小值中的至少任意一个。5.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。6.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。7.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括根据输出了所述对象模型而接收用户输入的输入部。8.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括使用所述对象模型对所述控制对象进行控制的控制部。9.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括通过所述强化学习生成成...

【专利技术属性】
技术研发人员：高见豪，冈本浩実，佐藤正彦，藤井英幸，神宫善行，御供颂弘，
申请(专利权)人：横河电机株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人