策略搜索装置、方法及记录介质制造方法及图纸

技术编号:22975138 阅读:65 留言:0更新日期:2019-12-31 23:35
本发明专利技术提供在存在多样指标的环境中根据状况来搜索优选的策略的策略搜索装置、方法及记录介质。其中,执行将以下的一系列处理反复进行多次的情节:基于表示针对对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而模拟对象环境的状态转变,取得转变后的对象环境的状态和由第1指标表示的与所适用的行动对应的报酬,基于状态和报酬将价值函数更新。并且,储存第2指标满足规定的条件的情节;基于储存的情节对价值函数进行改善;反复进行从情节的执行到价值函数的改善的一系列的处理,直到满足规定的结束条件;提示基于得到的价值函数决定的策略。

Device, method and recording medium of strategy search

【技术实现步骤摘要】
策略搜索装置、方法及记录介质
本专利技术涉及根据状况搜索有效的策略的技术。
技术介绍
在各种领域中,利用机械学习、根据状况搜索并提示有效的策略的技术受到关注。在专利文献1-4中,公开了使用强化学习的方法来学习使想要提高的指标(以下也称作“KPI”)提高的有效策略的技术。KPI是KeyPerformanceIndicator(关键绩效指标)的简写。专利文献1所公开的技术涉及如下方法:作为进行强化学习时的环境模型而使用已经经历的事件和行动的对的集合,由此降低强化学习的计算成本。专利文献2所公开的技术涉及如下方法:在强化学习中使用的价值函数的神经网络下的近似中,即使输入变量是许多个,也能够高精度且低成本地对神经网络的权重进行学习。专利文献3所公开的技术涉及如下方法:在用来在汽车的驾驶时提示支援驾驶者的信息的系统中,利用强化学习制作良好驾驶的行动指南,此时根据周边环境的变化对可采取的行动进行限定,由此有效地开展强化学习。专利文献4所公开的技术涉及如下方法:在强化学习中,利用相关分析来缩减接下来应采取的行动的候选,有效地学本文档来自技高网...

【技术保护点】
1.一种策略搜索装置,搜索规定的对象环境中的策略,其特征在于,具有:/n输入输出部,受理应提高的第1指标和与上述第1指标不同的第2指标的输入;/n模拟处理部,对上述对象环境适用行动而模拟上述对象环境的状态转变,作为模拟结果而计算转变后的上述对象环境的状态、以及由上述第1指标表示的与所适用的行动对应的报酬;以及/n策略搜索处理部,执行将以下的一系列处理反复进行多次的情节:基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而使上述模拟处理部模拟上述对象环境的状态转变,取得转变后的上述对象环境的状态和由上述第1指标表示的与所适用的行动对应的报酬,基于上述状态和上述报酬将...

【技术特征摘要】
20180621 JP 2018-1176391.一种策略搜索装置,搜索规定的对象环境中的策略,其特征在于,具有:
输入输出部,受理应提高的第1指标和与上述第1指标不同的第2指标的输入;
模拟处理部,对上述对象环境适用行动而模拟上述对象环境的状态转变,作为模拟结果而计算转变后的上述对象环境的状态、以及由上述第1指标表示的与所适用的行动对应的报酬;以及
策略搜索处理部,执行将以下的一系列处理反复进行多次的情节:基于表示针对上述对象环境的状态的行动的价值的价值函数,选择行动,适用所选择的行动而使上述模拟处理部模拟上述对象环境的状态转变,取得转变后的上述对象环境的状态和由上述第1指标表示的与所适用的行动对应的报酬,基于上述状态和上述报酬将上述价值函数更新;并且,上述策略搜索处理部储存上述第2指标满足规定的条件的情节,基于所储存的情节对上述价值函数进行改善,并反复进行从上述情节的执行到上述价值函数的改善为止的一系列的处理直到满足规定的结束条件,提示基于得到的上述价值函数决定的策略。


2.如权利要求1所述的策略搜索装置,其特征在于,
上述策略搜索处理部预先设定有根据第1指标计算报酬的报酬计算函数,基于上述输入输出部受理了输入的第1指标,选择上述报酬计算函数。


3.如权利要求1所述的策略搜索装置,其特征在于,
上述输入输出部还受理多个上述第2指标的权重的输入;
上述策略搜索处理部以将权重较大的第2指标比权重较小的第2指标更优先地维持为良好的值的方式选择情节并储存。


4.如权利要求1所述的策略搜索装置,其特征在于,
上述策略搜索处理部计算反复执行的多个情节中的上述第1指标与上述第2指标的相关系数,在上述相关系数为负的情况下,提示警告。


5.如权利要求4所述的策略搜索装置,其特征在于,
上述策略搜索处理部与通过上述情节的执行而进行的强化学习并行地计算上述相关系数,在判断为上述...

【专利技术属性】
技术研发人员:寺本矢绘美梁宇新间濑正启鲸井俊宏
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1