当前位置: 首页 > 专利查询>天津大学专利>正文

基于对比学习和互信息的元强化学习方法技术

技术编号:32537692 阅读:34 留言:0更新日期:2022-03-05 11:33
本发明专利技术公开了一种基于对比学习和互信息的元强化学习方法,步骤1、离线地提取环境表征和策略表征;步骤2、基于互信息进行策略表征和环境表征解耦;步骤3,最后通过值函数近似来优化策略表征。与现有技术相比,本发明专利技术在尽量少的与环境交互的前提下,让智能体能够快速适应新的环境,有效的提高了强化学习的泛化性。有效的提高了强化学习的泛化性。有效的提高了强化学习的泛化性。

【技术实现步骤摘要】
基于对比学习和互信息的元强化学习方法


[0001]本专利技术涉及深度强化学习领域,特别是涉及一种新的元强化学习方法。

技术介绍

[0002]强化学习起源于心理学,通过智能体与环境交互获得奖励,并根据累积奖励学得当前环境的最优策略。强化学习现在已经被广泛应用于工业制造,机器人最优控制,游戏AI和广告推荐领域,但是众所周知,强化学习的泛化能力非常差。
[0003]强化学习的泛化性较差主要由两部分原因构成,一方面是值函数的泛化性能力较差,现在的强化学习方法的目的都是学到一个最优的策略,在学习结束后,现有方法的值函数网络通常仅能代表当前最优策略的值函数,但是在值函数网络的学习过程中,显然值函数网络不仅见过最优策略,还见过一些其他的策略,但是随着学习过程的收敛,值函数网络最终只能近似当前最优策略的值函数。为了提高值函数的泛化性,近期的文章[学姐给的策略表征的文章列表引几篇]开始考虑对策略进行表征,策略表征的显式输入使得策略的值得以在策略空间进行泛化。另一方面是强化学习训练环境和测试环境通常是一样的,智能体在面对新的环境时通常表现会非常差。
[0004]元强化学习的目的就是解决多任务下,强化学习泛化性较差的问题。现在比较常用的元强化学习主要分为两类,一种是像《MAML:Model

Agnostic Meta

Learning for Fast Adaptation of Deep Networks》中基于梯度下降的方式,训练一组初始化参数,通过在初始参数的基础上进行一或多步的梯度调整,来达到仅用少量数据就能快速适应新task的目的。另一种则是提前学习一个基于任务的编码器,将编码器的结果作为任务信息输入给智能体,帮助智能体基于不同的任务信息做出决策。现在的方法大多基于智能体的轨迹来学习表征,然而它们都忽略了这种基于轨迹学到的信息中不仅含有环境信息,而且会包含策略信息的。
[0005]现有的元强化学习算法还存在另一个问题是普遍需要在线地与环境交互来进行学习,但是对于人类来说,人类通过对一些历史任务的经验观察,快速适应并通关新的任务。在这一过程中,人仅使用了历史任务的轨迹数据,并没有跟历史任务环境进行交互,但是现在的算法很少关注于这种离线的元强化学习。

技术实现思路

[0006]针对强化学习存在的泛化性较差的问题,本专利技术提出一种基于对比学习和互信息的元强化学习方法,实现了新的元强化学习方法。
[0007]本专利技术通过以下技术方案实现:
[0008]一种基于对比学习和互信息的元强化学习方法,该方法包括以下步骤:
[0009]步骤1、离线地提取环境表征和策略表征,其中:基于离线数据集,将来自同一环境的历史经验归为正例,来自不同环境的归为负例,通过对比学习方法进行学习,实现环境表征提取;基于变分自编码器结构对历史轨迹进行编码得到策略表征,然后基于策略表征通
过解码器预测轨迹中的真实动作进行学习,实现策略表征提取;另学习一个编码器来提取环境和策略的联合表征;
[0010]步骤2、基于互信息进行策略表征和环境表征解耦,即最小化策略表征和环境表征的互信息,然后最大化策略表征、环境表征和策略环境联合表征的互信息;学习得到环境表征z
e
、策略表征z
π
以及环境和策略的联合表征z
b
;接着引入约束,规约环境表征与策略表征之间的解耦、紧凑以及信息充分;
[0011]步骤3,通过值函数近似来优化策略表征:将策略表征和环境表征输入给值函数网络,在值函数网络训练好后,通过对值函数网络进行梯度上升来优化策略。
[0012]与现有技术相比,本专利技术在尽量少的与环境交互的前提下,让智能体能够快速适应新的环境,有效的提高了强化学习的泛化性。
附图说明
[0013]图1为本专利技术的一种基于对比学习和互信息的元强化学习方法整体流程图;
[0014]图2为本专利技术的策略表征和环境表征训练架构图;
[0015]图3为本专利技术的值函数训练和策略表征优化架构图。
具体实施方式
[0016]以下结合附图和具体实施例对本专利技术的技术方案进行详细说明。
[0017]本专利技术基于offline的数据,结合对比学习和互信息来分别提取环境表征和策略表征;随后利用互信息对两种表征进行解耦,最后通过基于环境表征和策略表征学习具有泛化能力的值函数网络,通过值函数近似来优化策略表征,从而间接优化策略。如图1所示,为本专利技术的一种基于对比学习和互信息的元强化学习方法整体流程图。该方法具体流程如下:
[0018]利用对比学习,其策略表征和环境表征,步骤1、离线地基于轨迹分别提取环境表征和策略表征:对于环境表征提取,基于离线数据集,将来自同一环境的历史经验归为正例,来自不同环境的归为负例,通过对比学习进行学习;对于策略表征提取,基于变分自编码器结构对历史轨迹进行编码得到策略表征,然后基于策略表征通过解码器预测轨迹中的真实动作进行学习;具体包括以下处理:
[0019]步骤1

1、利用离线数据进行训练,有N个训练用任务环境,针对每个任务环境M
i
∈ρ(M),i=1,...,N,在该环境下独立训练一个近端优化策略π
i
,在得到训练好的策略后,让所有的策略与所有的环境交叉交互,收集交互轨迹,得到数据集其中每条轨迹都由若干组成s
t
为当前状态、a
t
为当前动作、s
t+1
为下一时刻状态;
[0020]步骤1

2、提取环境表征时,从环境变量的视角对交互数据划分,将智能体的交互数据集D中的所有数据按照环境进行划分,即来自相同环境的交互数据互为正样本(比如策略π
i
和策略π
j
与环境k交互得到的数据互为环境k的正样本),不同环境之间的数据互为负样本(策略π
i
分别和环境k、环境q交互得到的数据互为负样本),编码网络Encoder
e
基于对比学习(Contrastive Learning)的损失函数学习交互数据所包含的环境信息的表征z
e

[0021]所使用的对比学习的损失函数InfoNCE Loss的表达式如下:
[0022][0023]其中,为在数据集D
e
上求数学期望,φ
e
和分别为表征编码网络Encoder
e
以及对应的动量网络,W为参数矩阵;
[0024]步骤1

3、使用编码器

解码器的网络结构提取策略表征,从离线数据集D中随机采样一段轨迹,通过编码器网络E
π
得到其在潜在空间(latent space)中的表征z
π
,然后从该段轨迹中采样出一组状态

动作对(s
t
,a
t
)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习和互信息的元强化学习方法,其特征在于,该方法包括以下步骤:步骤1、离线地提取环境表征和策略表征,其中:基于离线数据集,将来自同一环境的历史经验归为正例,来自不同环境的归为负例,通过对比学习方法进行学习,实现环境表征提取;基于变分自编码器结构对历史轨迹进行编码得到策略表征,然后基于策略表征通过解码器预测轨迹中的真实动作进行学习,实现策略表征提取;另学习一个编码器来提取环境和策略的联合表征;步骤2、基于互信息进行策略表征和环境表征解耦,即最小化策略表征和环境表征的互信息,然后最大化策略表征、环境表征和策略环境联合表征的互信息;学习得到环境表征z
e
、策略表征z
π
以及环境和策略的联合表征z
b
;接着引入约束,通过最小化环境表征z
e
、策略表征z
π
之间的互信息,来压缩环境表征z
e
和策略表征z
π
中的冗余信息,以获得信息紧密的表征,解耦两者在表征上的关联;步骤3,通过值函数近似来优化策略表征:将策略表征和环境表征输入给值函数网络,在值函数网络训练好后,通过对值函数网络进行梯度上升来优化策略。2.如权利要求1所述的一种基于对比学习和互信息的元强化学习方法,其特征在于,所述步骤1进一步包括以下处理:步骤1

1、利用离线数据进行训练,有N个训练用任务环境,针对每个任务环境M
i
∈ρ(M),i=1,...,N,在该环境下独立训练一个近端优化策略π
i
,在得到训练好的策略后,让所有的策略与所有的环境交叉交互,收集交互轨迹,得到数据集其中每条轨迹都由若干组成其中,s
t
为当前状态、a
t
为当前动作、s
t+1
为下一时刻状态;步骤1

2、对交互数据划分:将智能体的交互数据集中的所有数据按照环境进行划分,即来自相同环境的交互数据互为正样本不同环境之间的数据互为负样本编码网络Encoder
e
基于对比学习的损失函数学习交互数据所包含的环境信息的表征z
e
;所使用的对比学习的损失函数InfoNCE Loss的表达式如下:其中,为在数据集D
e
上求数学期望,φ
e
和分别为表征编码网络Encoder
e
以及对应的动量网络,W为参数矩阵;步骤1

3、使用编码器

解码器的网络结构提取策略表征,从离线数据集D中随机采样一段轨迹通过编码器网络E
π
得到其在潜在空间中的表征z
π
,然后从该段轨迹中采样出一组状态

动作对(s
t
,a
t
),将状态s
t
和z
π
作为解码器网络D
π
的输入来进行预测,以采样到的对应的动作a
t
作为预测标签,损失函数选择均方误差损失函数,表达式如下:L
policy
=MSE(a,D
π
(s,E
π
))
ꢀꢀꢀꢀꢀ
(2)步骤1

...

【专利技术属性】
技术研发人员:桑桐郝建业郑岩马亿汤宏垚
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1