【技术实现步骤摘要】
用于对多目标模型进行训练的训练装置和训练方法
本公开涉及信息处理领域,具体涉及用于基于目标空间内的目标对多目标模型进行训练的训练装置和方法。
技术介绍
强化学习旨在解决智能决策问题。在强化学习框架中,存在代理和环境。代理通过根据其策略和当前状态确定最佳动作来与环境交互。执行动作后,环境将返回回报并根据其状态迁移概率切换到新状态。然后,代理通过使对累积回报的期望最大化来优化其策略。常规的多目标强化学习方法,例如事后经验回放(HindsightExperienceReplay,HER),仅使用单个目标空间来训练代理解决任务。通常,目标空间包括不同难度级别的目标。对于困难级别较高的目标,常规的多目标强化学习方法可以生成的实现该目标的样本非常少。因而,常规的多目标强化学习方法需要很长时间和大量的训练样本来训练代理实现困难的目标。
技术实现思路
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性 ...
【技术保护点】
1.一种训练装置,用于基于目标空间内的目标对多目标模型进行训练,所述训练装置包括:/n目标空间设置单元,被配置成对所述目标空间进行设置,以获取具有不同难度级别的多个子目标空间;/n目标空间改变单元,被配置成将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间;/n采样单元,被配置成至少从当前的子目标空间选取目标作为采样目标,以及通过执行动作来获取与所述采样目标有关的迁移;/n训练单元,被配置成基于所述迁移对所述多目标模型进行训练;以及/n评估单元,被配置成通过计算实现当前的子目标空间内的目标的成功率来对所述多目标模型进行评估,/n其中,所述目标空间改 ...
【技术特征摘要】
1.一种训练装置,用于基于目标空间内的目标对多目标模型进行训练,所述训练装置包括:
目标空间设置单元,被配置成对所述目标空间进行设置,以获取具有不同难度级别的多个子目标空间;
目标空间改变单元,被配置成将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间;
采样单元,被配置成至少从当前的子目标空间选取目标作为采样目标,以及通过执行动作来获取与所述采样目标有关的迁移;
训练单元,被配置成基于所述迁移对所述多目标模型进行训练;以及
评估单元,被配置成通过计算实现当前的子目标空间内的目标的成功率来对所述多目标模型进行评估,
其中,所述目标空间改变单元被配置成在所述成功率大于预定阈值的情况下,将待处理的子目标空间从当前的子目标空间改变到具有更高难度级别的下一子目标空间。
2.根据权利要求1所述的训练装置,其中,所述目标空间设置单元被配置成预先对所述目标空间进行划分,以获取具有不同难度级别的所述多个子目标空间。
3.根据权利要求1所述的训练装置,其中,所述目标空间设置单元被配置成在所述成功率大于预定阈值的情况下,通过计算已实现的目标的分布,利用所述目标空间内的距离所述分布的中心预定距离的目标来获取下一子目标空间。
4.根据权利要求1至3中任一项所述的训练装置,其中,所述采样单元被配置成还从经处理的子目标空间选取目标作为采样目标。
5.根据权利要求4所述的训练装置,其中,所述采样单元被配置成分别以第一概率和第二概率从当前的子目标空间和经处理的子目标空间选取目标作为采样目标,以及其中,所述第一概率和所述第二概率之和为100%。
6.根据权利要求1至3中任一项所述的训练装置,其中...
【专利技术属性】
技术研发人员:钟朝亮,夏文升,石自强,孙俊,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。