强化学习的训练方法和装置制造方法及图纸

技术编号:25951575 阅读:19 留言:0更新日期:2020-10-17 03:43
本申请提供了一种强化学习的训练方法和装置,可以提高元强化学习的探索效率,以实现对新任务的快速适应。该方法包括:初始化上下文任务编码器、探索策略和利用策略;执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为,以得到基于第一行为的第一样本,第一样本包括环境响应于第一行为的第一反馈;执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为,以得到基于第二行为的第二样本,第二样本包括环境响应于第二行为的第二反馈;根据第一反馈和第二反馈对探索策略和利用策略进行优化。

【技术实现步骤摘要】
强化学习的训练方法和装置
本申请涉及人工智能领域,具体涉及一种强化学习的训练方法和装置。
技术介绍
强化学习是用于实现序列决策的通用方法,智能体(agent)以“试错”的方式进行学习,通过动作(action)与环境进行交互获得的奖励(reward)指导行为,目标是使智能体获得最大的奖励。目前强化学习受到学术界和业界的极大重视,然而从完全空白开始训练的强化学习智能体对于新任务尤其是复杂任务的学习效率通常较低,主要的问题在于无法有效调用先验知识解决当前的问题。为了提升强化学习对新任务的学习能力,目前的主流方法之一是结合元学习。元学习为智能体提供一种使用少量样本快速适应新任务的方法。元强化学习利用先验知识,实现对新任务基于小样本快速学习。目前的元强化学习主要分为基于梯度的元强化学习和基于上下文的元强化学习。其中,基于梯度的元强化学习通过少量步数的梯度下降实现对新任务的快速适应,而基于上下文的元强化学习则通过对任务编码的推理获得更多与任务相关的信息来提升对新任务的探索效率,从而实现对新任务的快速适应。在对新任务的适应效率方面,基于上下文的元强化学习比基于梯度的元强化学习更具有优势。为了实现对新任务高效的适应,探索效率是元强化学习对新任务快速适应重要影响因素。因此一种具有高探索效率的元强化学习方法,实现对新任务的快速适应,则显得尤为重要。
技术实现思路
本申请提供一种强化学习的训练方法和装置,可以提高元强化学习的探索效率,以实现对新任务的快速适应。第一方面,提供了一种强化学习的训练方法,包括:初始化上下文任务编码器、探索策略和利用策略;执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为,以得到基于第一行为的第一样本,第一样本包括环境响应于第一行为的第一反馈;执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为,以得到基于第二行为的第二样本,第二样本包括环境响应于第二行为的第二反馈;根据第一反馈和第二反馈对探索策略和利用策略进行优化。现有的元强化学习方法中探索策略和利用策略融合为一体,探索策略保守,且探索过程中缺少即时反馈,难以实现对任务的快速适应,探索效率低下。本申请实施例的元强化学习的训练方法具有相互独立的探索策略和利用策略,避免了探索策略和利用策略相互制约而导致的探索策略保守,提高探索效率。同时获取环境的即时反馈,为探索策略提供连续的探索信号,对于反馈稀疏的小样本任务也能实现高效适应。结合第一方面,在第一方面的一种可能的实施方式中,该方法还包括:在执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为之前,判定第一样本的轨迹数量小于第一阈值;在执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为之前,判定第二样本的轨迹数量小于第二阈值。本申请实施例的元强化学习的训练方法中可以对探索策略的执行次数和利用策略的执行次数进行预设,在执行探索策略获取的样本轨迹数量达到预设值之前,执行探索策略,在执行探索策略获取的样本轨迹数量达到预设值之后,在执行利用策略获取的样本轨迹数量达到预设值之前,执行利用策略,在执行利用策略获取的样本轨迹数量达到预设值之后,执行对探索策略和利用策略的优化。结合第一方面,在第一方面的一种可能的实施方式中,根据上下文任务编码器和第一环境信息执行基于探索策略的第一行为,以获取基于第一行为的第一样本,包括:获取第一环境信息作为上下文任务编码器的输入,以获得第一输出;将第一输出作为探索策略的输入,以获得第一行为;执行第一行为,以得到第一样本。结合第一方面,在第一方面的一种可能的实施方式中,根据上下文任务编码器和第二环境信息执行基于利用策略的第二行为,以获取基于第二行为的第二样本,包括:获取第二环境信息作为上下文任务编码器的输入,以获得第二输出;将第二输出作为利用策略的输入,以获得第二行为;执行第二行为,以得到第二样本。本申请实施例的元强化学习的训练方法中根据上下文任务编码器对环境进行采样,将采样结果作为探索策略或利用策略的输入,探索策略或利用策略的输出即为对环境应该采取的行为,然后获取环境的即时反馈。结合第一方面,在第一方面的一种可能的实施方式中,根据第一反馈和第二反馈对探索策略和利用策略进行优化,包括:获取第一样本对应的第一内在激励和第二样本对应的第二内在激励;根据第一内在激励和第一反馈获取第一奖励;根据第一奖励对探索策略进行优化;根据第二内在激励和第二反馈获取第二奖励;根据第二奖励对利用策略进行优化。本申请实施例的元强化学习的训练方法中,执行行为后环境的奖励包括环境的即时反馈和样本的内在激励两方面。结合第一方面,在第一方面的一种可能的实施方式中,获取第一样本对应的第一内在激励和第二样本对应的第二内在激励,包括:获取第一环境信息与对第一环境信息编码之间的第一互信息;根据第一互信息获取第一激励;获取第二环境信息与对第二环境信息编码之间的第二互信息;根据第二互信息获取第二激励。结合第一方面,在第一方面的一种可能的实施方式中,获取第一样本对应的第一内在激励和第二样本对应的第二内在激励,包括:获取第一反馈和第一环境状态的第一真值;获取对第一环境信息的编码的第一预测值;根据第一真值和第一预测值的差距获取第一内在激励;获取第二反馈和第二环境状态的第二真值;获取对第二环境信息的编码的第二预测值;根据第二真值和第二预测值的差距获取第二内在激励。本申请实施例的元强化学习的训练方法中,提供了两种获取内在激励的方法,一种是通过衡量对环境信息和对环境信息编码之间的互信息来获取内在激励;另一种是衡量反馈和状态真值与基于对环境信息编码的预测值之间的差距来获取内在激励。第二方面,提供了一种适应任务的方法,其特征在于,包括:载入训练好的上下文任务编码器、探索策略和利用策略;执行根据第一环境信息、上下文任务编码器和探索策略的第一行为,以得到基于第一行为的第一样本,第一样本包括环境响应于第一行为的第一反馈;执行根据第二环境信息、上下文任务编码器和利用策略的第二行为,以得到基于第二行为的第二样本,第二样本包括环境响应于第二行为的第二反馈。本申请实施例除了提供一种元强化学习的训练方法,还提供一种适应任务的方法,利用根据元强化学习的训练方法训练好的上下文任务编码器、探索策略和利用策略,实现对任务的快速适应。结合第二方面,在第二方面的一种可能的实施方式中,方法还包括:在执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为之前,判定第一样本的轨迹数量小于第一阈值;在执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为之前,判定第二样本的轨迹数量小于第二阈值。结合第二方面,在第二方面的一种可能的实施方式中,根据上下文任务编码器和第一环境信息执行基于探索策略的第一行为,以获取基于第一行为的第一样本,包括:获取第一环境信息作为上下文任务编码器的输入,以获得第一输出;将第一输出作为探索策略的输入,以获得第一行为;执行第一行为,以得到第一样本。结合第二方面,在第二方面的一种本文档来自技高网...

【技术保护点】
1.一种强化学习的训练方法,其特征在于,包括:/n初始化上下文任务编码器、探索策略和利用策略;/n执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为,以得到基于所述第一行为的第一样本,所述第一样本包括环境响应于所述第一行为的第一反馈;/n执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为,以得到基于所述第二行为的第二样本,所述第二样本包括环境响应于所述第二行为的第二反馈;/n根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化。/n

【技术特征摘要】
1.一种强化学习的训练方法,其特征在于,包括:
初始化上下文任务编码器、探索策略和利用策略;
执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为,以得到基于所述第一行为的第一样本,所述第一样本包括环境响应于所述第一行为的第一反馈;
执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为,以得到基于所述第二行为的第二样本,所述第二样本包括环境响应于所述第二行为的第二反馈;
根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为之前,判定所述第一样本的轨迹数量小于第一阈值;
在执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为之前,判定所述第二样本的轨迹数量小于第二阈值。


3.根据权利要求1或2所述的方法,其特征在于,所述根据所述上下文任务编码器和第一环境信息执行基于所述探索策略的第一行为,以获取基于所述第一行为的第一样本,包括:
获取所述第一环境信息作为所述上下文任务编码器的输入,以获得第一输出;
将所述第一输出作为所述探索策略的输入,以获得所述第一行为;
执行所述第一行为,以得到所述第一样本。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述上下文任务编码器和第二环境信息执行基于所述利用策略的第二行为,以获取基于所述第二行为的第二样本,包括:
获取所述第二环境信息作为所述上下文任务编码器的输入,以获得第二输出;
将所述第二输出作为所述利用策略的输入,以获得所述第二行为;
执行所述第二行为,以得到所述第二样本。


5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化,包括:
获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励;
根据所述第一内在激励和所述第一反馈获取第一奖励;
根据所述第一奖励对所述探索策略进行优化;
根据所述第二内在激励和所述第二反馈获取第二奖励;
根据所述第二奖励对所述利用策略进行优化。


6.根据权利要求5所述的方法,其特征在于,所述获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励,包括:
获取所述第一环境信息与对所述第一环境信息编码之间的第一互信息;
根据所述第一互信息获取所述第一激励;
获取所述第二环境信息与对所述第二环境信息编码之间的第二互信息;
根据所述第二互信息获取所述第二激励。


7.根据权利要求5所述的方法,其特征在于,所述获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励,包括:
获取所述第一反馈和第一环境状态的第一真值;
获取对第一环境信息的编码的第一预测值;
根据所述第一真值和所述第一预测值的差距获取所述第一内在激励;
获取所述第二反馈和第二环境状态的第二真值;
获取对第二环境信息的编码的第二预测值;
根据所述第二真值和所述第二预测值的差距获取所述第二内在激励。


8.一种适应任务的方法,其特征在于,包括:
载入训练好的上下文任务编码器、探索策略和利用策略;
执行根据第一环境信息、所述上下文任务编码器和所述探索策略的第一行为,以得到基于所述第一行为的第一样本,所述第一样本包括环境响应于所述第一行为的第一反馈;
执行根据第二环境信息、所述上下文任务编码器和所述利用策略的第二行为,以得到基于所述第二行为的第二样本,所述第二样本包括环境响应于所述第二行为的第二反馈。


9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为之前,判定所述第一样本的轨迹数量小于第一阈值;
在执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为之前,判定所述第二样本的轨迹数量小于第二阈值。


10.根据权利要求8或9所述的方法,其特征在于,所述根据所述上下文任务编码器和第一环境信息执行基于所述探索策略的第一行为,以获取基于所述第一行为的第一样本,包括:
获取所述第一环境信息作为所述上下文任务编码器的输入,以获得第一输出;
将所述第一输出作为所述探索策略的输入,以获得所述第一行为;
执行所述第一行为,以得到所述第一样本。


11.根据权利要求8至10中任一项所述的方法,其特征在于,所述根据所述上下文任务编码器和第二环境信息执行基于所述利用策略的第二行为,以获取基于所述第二行为的第二样本,包括:
获取所述第二环境信息作为所述上下文任务编码器的输入,以获得第二输出;
将所述第二输出作为所述利用策略的输入,以获得所述第二行为;
执行所述第二行为,以得到所述第二样本。


12.一种强化学习的训练装置,其特征在于,包括:
初始化单元,用于初始化上下文任务编码器、探索策略和利用策略;
交互单元,用于执行根据第一环境信息、所述上下文任务编码器和所述探索策略的第一行为,以得到基于所述第一行为的第一样本,所述第一样本包括环境响应于所述第一行为的第一反馈;
所述交互单元还用于执行根据...

【专利技术属性】
技术研发人员:庄雨铮张劲刘武龙张崇洁
申请(专利权)人:华为技术有限公司清华大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1