强化学习的训练方法和装置制造方法及图纸

技术编号：25951575 阅读：19 留言：0更新日期：2020-10-17 03:43

本申请提供了一种强化学习的训练方法和装置，可以提高元强化学习的探索效率，以实现对新任务的快速适应。该方法包括：初始化上下文任务编码器、探索策略和利用策略；执行根据第一环境信息、上下文任务编码器和探索策略获取的第一行为，以得到基于第一行为的第一样本，第一样本包括环境响应于第一行为的第一反馈；执行根据第二环境信息、上下文任务编码器和利用策略获取的第二行为，以得到基于第二行为的第二样本，第二样本包括环境响应于第二行为的第二反馈；根据第一反馈和第二反馈对探索策略和利用策略进行优化。

全部详细技术资料下载

【技术实现步骤摘要】
强化学习的训练方法和装置
本申请涉及人工智能领域，具体涉及一种强化学习的训练方法和装置。
技术介绍
强化学习是用于实现序列决策的通用方法，智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，目标是使智能体获得最大的奖励。目前强化学习受到学术界和业界的极大重视，然而从完全空白开始训练的强化学习智能体对于新任务尤其是复杂任务的学习效率通常较低，主要的问题在于无法有效调用先验知识解决当前的问题。为了提升强化学习对新任务的学习能力，目前的主流方法之一是结合元学习。元学习为智能体提供一种使用少量样本快速适应新任务的方法。元强化学习利用先验知识，实现对新任务基于小样本快速学习。目前的元强化学习主要分为基于梯度的元强化学习和基于上下文的元强化学习。其中，基于梯度的元强化学习通过少量步数的梯度下降实现对新任务的快速适应，而基于上下文的元强化学习则通过对任务编码的推理获得更多与任务相关的信息来提升对新任务的探索效率，从而实现对新任务的快速适应。在对新任务的适应效率方面，基于上下文的元强化学习比基于梯度的元强化学习更具有优势。为了实现对新任务高效的适应，探索效率是元强化学习对新任务快速适应重要影响因素。因此一种具有高探索效率的元强化学习方法，实现对新任务的快速适应，则显得尤为重要。
技术实现思路
本申请提供一种强化学习的训练方法和装置，可以提高元强化学习的探索效率，以实现对新任务的快速适应。第一方面，提供了一种强化学习的训练方...

【技术保护点】
1.一种强化学习的训练方法，其特征在于，包括：/n初始化上下文任务编码器、探索策略和利用策略；/n执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为，以得到基于所述第一行为的第一样本，所述第一样本包括环境响应于所述第一行为的第一反馈；/n执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为，以得到基于所述第二行为的第二样本，所述第二样本包括环境响应于所述第二行为的第二反馈；/n根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化。/n

【技术特征摘要】
1.一种强化学习的训练方法，其特征在于，包括：
初始化上下文任务编码器、探索策略和利用策略；
执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为，以得到基于所述第一行为的第一样本，所述第一样本包括环境响应于所述第一行为的第一反馈；
执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为，以得到基于所述第二行为的第二样本，所述第二样本包括环境响应于所述第二行为的第二反馈；
根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
在执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为之前，判定所述第一样本的轨迹数量小于第一阈值；
在执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为之前，判定所述第二样本的轨迹数量小于第二阈值。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述上下文任务编码器和第一环境信息执行基于所述探索策略的第一行为，以获取基于所述第一行为的第一样本，包括：
获取所述第一环境信息作为所述上下文任务编码器的输入，以获得第一输出；
将所述第一输出作为所述探索策略的输入，以获得所述第一行为；
执行所述第一行为，以得到所述第一样本。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述上下文任务编码器和第二环境信息执行基于所述利用策略的第二行为，以获取基于所述第二行为的第二样本，包括：
获取所述第二环境信息作为所述上下文任务编码器的输入，以获得第二输出；
将所述第二输出作为所述利用策略的输入，以获得所述第二行为；
执行所述第二行为，以得到所述第二样本。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述第一反馈和所述第二反馈对所述探索策略和所述利用策略进行优化，包括：
获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励；
根据所述第一内在激励和所述第一反馈获取第一奖励；
根据所述第一奖励对所述探索策略进行优化；
根据所述第二内在激励和所述第二反馈获取第二奖励；
根据所述第二奖励对所述利用策略进行优化。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励，包括：
获取所述第一环境信息与对所述第一环境信息编码之间的第一互信息；
根据所述第一互信息获取所述第一激励；
获取所述第二环境信息与对所述第二环境信息编码之间的第二互信息；
根据所述第二互信息获取所述第二激励。

7.根据权利要求5所述的方法，其特征在于，所述获取所述第一样本对应的第一内在激励和所述第二样本对应的第二内在激励，包括：
获取所述第一反馈和第一环境状态的第一真值；
获取对第一环境信息的编码的第一预测值；
根据所述第一真值和所述第一预测值的差距获取所述第一内在激励；
获取所述第二反馈和第二环境状态的第二真值；
获取对第二环境信息的编码的第二预测值；
根据所述第二真值和所述第二预测值的差距获取所述第二内在激励。

8.一种适应任务的方法，其特征在于，包括：
载入训练好的上下文任务编码器、探索策略和利用策略；
执行根据第一环境信息、所述上下文任务编码器和所述探索策略的第一行为，以得到基于所述第一行为的第一样本，所述第一样本包括环境响应于所述第一行为的第一反馈；
执行根据第二环境信息、所述上下文任务编码器和所述利用策略的第二行为，以得到基于所述第二行为的第二样本，所述第二样本包括环境响应于所述第二行为的第二反馈。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：
在执行根据第一环境信息、所述上下文任务编码器和所述探索策略获取的第一行为之前，判定所述第一样本的轨迹数量小于第一阈值；
在执行根据第二环境信息、所述上下文任务编码器和所述利用策略获取的第二行为之前，判定所述第二样本的轨迹数量小于第二阈值。

10.根据权利要求8或9所述的方法，其特征在于，所述根据所述上下文任务编码器和第一环境信息执行基于所述探索策略的第一行为，以获取基于所述第一行为的第一样本，包括：
获取所述第一环境信息作为所述上下文任务编码器的输入，以获得第一输出；
将所述第一输出作为所述探索策略的输入，以获得所述第一行为；
执行所述第一行为，以得到所述第一样本。

11.根据权利要求8至10中任一项所述的方法，其特征在于，所述根据所述上下文任务编码器和第二环境信息执行基于所述利用策略的第二行为，以获取基于所述第二行为的第二样本，包括：
获取所述第二环境信息作为所述上下文任务编码器的输入，以获得第二输出；
将所述第二输出作为所述利用策略的输入，以获得所述第二行为；
执行所述第二行为，以得到所述第二样本。

12.一种强化学习的训练装置，其特征在于，包括：
初始化单元，用于初始化上下文任务编码器、探索策略和利用策略；
交互单元，用于执行根据第一环境信息、所述上下文任务编码器和所述探索策略的第一行为，以得到基于所述第一行为的第一样本，所述第一样本包括环境响应于所述第一行为的第一反馈；
所述交互单元还用于执行根据...

【专利技术属性】
技术研发人员：庄雨铮，张劲，刘武龙，张崇洁，
申请(专利权)人：华为技术有限公司，清华大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人