一种基于零样本泛化的强化学习模型环境自适应方法技术

技术编号:37846629 阅读:18 留言:0更新日期:2023-06-14 22:31
本发明专利技术公开了一种基于零样本泛化的强化学习模型环境自适应方法,首先从模型与环境交互得到训练数据中随机取出两组数据,对其中一组状态图像进行数据增强,然后分别对增强和未增强原状态图像进行语义编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息,再分别通过Q函数得到预测值,最后联合两组数据的预测误差更新增强数据的编码器。合两组数据的预测误差更新增强数据的编码器。合两组数据的预测误差更新增强数据的编码器。

【技术实现步骤摘要】
一种基于零样本泛化的强化学习模型环境自适应方法


[0001]本专利技术属于深度学习
,具体涉及一种强化学习模型环境自适应方法。

技术介绍

[0002]基于视觉的深度强化学习在各种控制任务中取得了成功,并表现出超乎人类的性能,例如雅达利游戏、围棋游戏、机器人控制、自动驾驶等任务。但是,深度强化学习模型的训练依赖于与特定环境的频繁交互,一旦环境发生变化,模型便容易做出不合理决策,性能显著下降。不同于游戏环境状态空间固定,边端智能体所处的现实环境纷繁复杂,且随时动态变化,训练数据难以覆盖所有环境状态,因此,环境适应能力对深度强化学习模型的大规模部署应用至关重要。
[0003]现已有研究者通过零样本泛化、迁移学习、持续学习等方法探索模型的环境自适应技术,其中零样本泛化在环境发生小范围改变的大多数场景下应用广泛。零样本泛化是指在源环境训练模型,使模型在多个不可见的目标环境表现良好,不需要模型在新环境演化,对智能体没有算力要求,主要有基于数据增强的方法、基于状态表征的方法和基于策略学习的方法。基于数据增强的方法是指通过随机增强训练数据增强模型的鲁棒性,代表性方法有Random convolution、Mixup、Cutmix、Attentionneuron等。此类方法单独使用容易阻碍训练并导致次优性能,因此通常与后两种方法配合使用。基于状态表征的方法是指训练具有泛化能力的编码器,从而增强模型整体的泛化能力,例如PIE

G、LUSR、MoDE、DBC等。基于策略学习的方法是指训练深度强化学习策略模型整体的泛化能力,例如Secant、SEVA、RCAN、netrand。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于零样本泛化的强化学习模型环境自适应方法,首先从模型与环境交互得到训练数据中随机取出两组数据,对其中一组状态图像进行数据增强,然后分别对增强和未增强原状态图像进行语义编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息,再分别通过Q函数得到预测值,最后联合两组数据的预测误差更新增强数据的编码器。
[0005]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0006]步骤1:数据采集;
[0007]通过强化学习模型控制智能体按策略π采取行动与环境交互,收集(s
t
,a
t
,r
t
,s
t+1
)序列作为训练数据;在训练过程中,数据收集与模型参数更新交替进行;s
t
,a
t
,r
t
,s
t+1
分别表示智能体当前时刻的状态图像、采取的行动、获得的奖励和下一时刻的状态图像;
[0008]步骤2:数据增强;
[0009]从训练数据B中随机选择t时刻与h时刻的两组数据(s
t
,a
t
,r
t
,s
t+1
)、(s
h
,a
h
,r
h
,s
h+1
),将状态图像s
t
和s
h
裁剪成A
×
A的大小,对s
t
状态图像进行数据增强,得到s

t
;使用干扰图片I对状态图片s
t
进行mixup线性数据增强:
[0010]f(s
t
)=α
st
+(1

α)I
[0011]式中,f(s
t
)表示增强后的状态图像,α表示权重系数;
[0012]步骤3:数据编码;
[0013]对状态图像s

t
和s
h
进行编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息;所述IBN模块包括IN层和BN层,IN层能够学习外观变化不变即域无关的特征,BN层能够学习内容信息;
[0014]步骤3

1:低级特征提取;分别对状态图片s

t
和s
h
进行下采样,在高分辨下提取图像的低级特征F
t
和F
h

[0015]步骤3

2:风格无关语义特征提取;通过IBN模块分别对F
t
和F
h
提取风格无关的语义特征,得到F

t
和F

h

[0016]步骤3

3:关键信息语义特征提取;通过CBAM注意力模块分别对F

t
和F

h
提取关键信息的语义特征,得到F

t
和F

h
;提取过程原理如下:
[0017]步骤3
‑3‑
1:通道注意子模块对输入特征F使用平均池化和最大池化操作来聚合特征图的空间信息,生成两个不同的空间上下文描述符和分别表示平均池化特征和最大池化特征,将两个描述符转发到共享网络,以生成通道注意力图M
c
;共享网络由多层感知器MLP和一个隐藏层组成;在将共享网络应用于每个描述符之后,逐元素求和合并输出特征向量F


[0018]M
c
(F)=σ(MLP(AveragePool(F))+MLP(MaxPool(F)))
[0019]式中,σ表示表示S形函数;
[0020]步骤3
‑3‑
2:空间注意子模块对特征F沿通道轴应用平均池化和最大池化操作,生成两个2D图和通过标准卷积层将这些数据连接起来并进行卷积,生成2D空间注意力图M
s

[0021]M
s
(F)=a(f7×7([Averagepool(F);Maxpool(F)]))
[0022]步骤3
‑3‑
3:CBAM模块即通道注意子模块与空间注意子模块的顺序组合,整体注意力过程为:
[0023][0024][0025]其中,表示元素相乘,F

为最终输出的特征;在乘法运算时,相应地提取关注值:通道注意子模块提取关键信息内容,空间注意子模块提取关键信息位置;
[0026]步骤4:Q函数预测;
[0027]分别将t时刻的状态特征F

t
和动作a
t
组成的状态动作对(F

t
,a
t
)与h时刻的状态特征F

h
和动作a
h
组成的状态动作对(F

h
,a
h
)输入到Q函数中,得到Q值;Q函数定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于零样本泛化的强化学习模型环境自适应方法,其特征在于,包括以下步骤:步骤1:数据采集;通过强化学习模型控制智能体按策略π采取行动与环境交互,收集(s
t
,a
t
,r
t
,s
t+1
)序列作为训练数据;在训练过程中,数据收集与模型参数更新交替进行;s
t
,a
t
,r
t
,s
t+1
分别表示智能体当前时刻的状态图像、采取的行动、获得的奖励和下一时刻的状态图像;步骤2:数据增强;从训练数据B中随机选择t时刻与h时刻的两组数据(s
t
,a
t
,r
t
,s
t+1
)、(s
h
,a
h
,r
h
,s
h+1
),将状态图像s
t
和s
h
裁剪成A
×
A的大小,对s
t
状态图像进行数据增强,得到s

t
;使用干扰图片I对状态图片s
t
进行mixup线性数据增强:f(s
t
)=αs
t
+(1

α)I式中,f(s
t
)表示增强后的状态图像,α表示权重系数;步骤3:数据编码;对状态图像s

t
和s
h
进行编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息;所述IBN模块包括IN层和BN层,IN层能够学习外观变化不变即域无关的特征,BN层能够学习内容信息;步骤3

1:低级特征提取;分别对状态图片s

t
和s
h
进行下采样,在高分辨下提取图像的低级特征F
t
和F
h
;步骤3

2:风格无关语义特征提取;通过IBN模块分别对F
t
和F
h
提取风格无关的语义特征,得到F

t
和F

h
;步骤3

3:关键信息语义特征提取;通过CBAM注意力模块分别对F

t
和F

h
提取关键信息的语义特征,得到F

t
和F

h
;提取过程原理如下:步骤3
‑3‑
1:通道注意子模块对输入特征F使用平均池...

【专利技术属性】
技术研发人员:郭斌方禹杨刘佳琪邱晨於志文
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1