【技术实现步骤摘要】
基于对比学习和互信息的元强化学习方法
[0001]本专利技术涉及深度强化学习领域,特别是涉及一种新的元强化学习方法。
技术介绍
[0002]强化学习起源于心理学,通过智能体与环境交互获得奖励,并根据累积奖励学得当前环境的最优策略。强化学习现在已经被广泛应用于工业制造,机器人最优控制,游戏AI和广告推荐领域,但是众所周知,强化学习的泛化能力非常差。
[0003]强化学习的泛化性较差主要由两部分原因构成,一方面是值函数的泛化性能力较差,现在的强化学习方法的目的都是学到一个最优的策略,在学习结束后,现有方法的值函数网络通常仅能代表当前最优策略的值函数,但是在值函数网络的学习过程中,显然值函数网络不仅见过最优策略,还见过一些其他的策略,但是随着学习过程的收敛,值函数网络最终只能近似当前最优策略的值函数。为了提高值函数的泛化性,近期的文章[学姐给的策略表征的文章列表引几篇]开始考虑对策略进行表征,策略表征的显式输入使得策略的值得以在策略空间进行泛化。另一方面是强化学习训练环境和测试环境通常是一样的,智能体在面对新的环境时通常表现会非常差。
[0004]元强化学习的目的就是解决多任务下,强化学习泛化性较差的问题。现在比较常用的元强化学习主要分为两类,一种是像《MAML:Model
‑
Agnostic Meta
‑
Learning for Fast Adaptation of Deep Networks》中基于梯度下降的方式,训练一组初始化参数,通过在初始参数的基础上进行一或多步 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习和互信息的元强化学习方法,其特征在于,该方法包括以下步骤:步骤1、离线地提取环境表征和策略表征,其中:基于离线数据集,将来自同一环境的历史经验归为正例,来自不同环境的归为负例,通过对比学习方法进行学习,实现环境表征提取;基于变分自编码器结构对历史轨迹进行编码得到策略表征,然后基于策略表征通过解码器预测轨迹中的真实动作进行学习,实现策略表征提取;另学习一个编码器来提取环境和策略的联合表征;步骤2、基于互信息进行策略表征和环境表征解耦,即最小化策略表征和环境表征的互信息,然后最大化策略表征、环境表征和策略环境联合表征的互信息;学习得到环境表征z
e
、策略表征z
π
以及环境和策略的联合表征z
b
;接着引入约束,通过最小化环境表征z
e
、策略表征z
π
之间的互信息,来压缩环境表征z
e
和策略表征z
π
中的冗余信息,以获得信息紧密的表征,解耦两者在表征上的关联;步骤3,通过值函数近似来优化策略表征:将策略表征和环境表征输入给值函数网络,在值函数网络训练好后,通过对值函数网络进行梯度上升来优化策略。2.如权利要求1所述的一种基于对比学习和互信息的元强化学习方法,其特征在于,所述步骤1进一步包括以下处理:步骤1
‑
1、利用离线数据进行训练,有N个训练用任务环境,针对每个任务环境M
i
∈ρ(M),i=1,...,N,在该环境下独立训练一个近端优化策略π
i
,在得到训练好的策略后,让所有的策略与所有的环境交叉交互,收集交互轨迹,得到数据集其中每条轨迹都由若干组成其中,s
t
为当前状态、a
t
为当前动作、s
t+1
为下一时刻状态;步骤1
‑
2、对交互数据划分:将智能体的交互数据集中的所有数据按照环境进行划分,即来自相同环境的交互数据互为正样本不同环境之间的数据互为负样本编码网络Encoder
e
基于对比学习的损失函数学习交互数据所包含的环境信息的表征z
e
;所使用的对比学习的损失函数InfoNCE Loss的表达式如下:其中,为在数据集D
e
上求数学期望,φ
e
和分别为表征编码网络Encoder
e
以及对应的动量网络,W为参数矩阵;步骤1
‑
3、使用编码器
‑
解码器的网络结构提取策略表征,从离线数据集D中随机采样一段轨迹通过编码器网络E
π
得到其在潜在空间中的表征z
π
,然后从该段轨迹中采样出一组状态
‑
动作对(s
t
,a
t
),将状态s
t
和z
π
作为解码器网络D
π
的输入来进行预测,以采样到的对应的动作a
t
作为预测标签,损失函数选择均方误差损失函数,表达式如下:L
policy
=MSE(a,D
π
(s,E
π
))
ꢀꢀꢀꢀꢀ
(2)步骤1
‑
...
【专利技术属性】
技术研发人员:桑桐,郝建业,郑岩,马亿,汤宏垚,
申请(专利权)人:天津大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。