一种基于零样本泛化的强化学习模型环境自适应方法技术

技术编号:37846629 阅读:25 留言:0更新日期:2023-06-14 22:31
本发明专利技术公开了一种基于零样本泛化的强化学习模型环境自适应方法,首先从模型与环境交互得到训练数据中随机取出两组数据,对其中一组状态图像进行数据增强,然后分别对增强和未增强原状态图像进行语义编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息,再分别通过Q函数得到预测值,最后联合两组数据的预测误差更新增强数据的编码器。合两组数据的预测误差更新增强数据的编码器。合两组数据的预测误差更新增强数据的编码器。

【技术实现步骤摘要】
一种基于零样本泛化的强化学习模型环境自适应方法


[0001]本专利技术属于深度学习
,具体涉及一种强化学习模型环境自适应方法。

技术介绍

[0002]基于视觉的深度强化学习在各种控制任务中取得了成功,并表现出超乎人类的性能,例如雅达利游戏、围棋游戏、机器人控制、自动驾驶等任务。但是,深度强化学习模型的训练依赖于与特定环境的频繁交互,一旦环境发生变化,模型便容易做出不合理决策,性能显著下降。不同于游戏环境状态空间固定,边端智能体所处的现实环境纷繁复杂,且随时动态变化,训练数据难以覆盖所有环境状态,因此,环境适应能力对深度强化学习模型的大规模部署应用至关重要。
[0003]现已有研究者通过零样本泛化、迁移学习、持续学习等方法探索模型的环境自适应技术,其中零样本泛化在环境发生小范围改变的大多数场景下应用广泛。零样本泛化是指在源环境训练模型,使模型在多个不可见的目标环境表现良好,不需要模型在新环境演化,对智能体没有算力要求,主要有基于数据增强的方法、基于状态表征的方法和基于策略学习的方法。基于数据增强的方法是指通过随机增强训练数据增强模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于零样本泛化的强化学习模型环境自适应方法,其特征在于,包括以下步骤:步骤1:数据采集;通过强化学习模型控制智能体按策略π采取行动与环境交互,收集(s
t
,a
t
,r
t
,s
t+1
)序列作为训练数据;在训练过程中,数据收集与模型参数更新交替进行;s
t
,a
t
,r
t
,s
t+1
分别表示智能体当前时刻的状态图像、采取的行动、获得的奖励和下一时刻的状态图像;步骤2:数据增强;从训练数据B中随机选择t时刻与h时刻的两组数据(s
t
,a
t
,r
t
,s
t+1
)、(s
h
,a
h
,r
h
,s
h+1
),将状态图像s
t
和s
h
裁剪成A
×
A的大小,对s
t
状态图像进行数据增强,得到s

t
;使用干扰图片I对状态图片s
t
进行mixup线性数据增强:f(s
t
)=αs
t
+(1

α)I式中,f(s
t
)表示增强后的状态图像,α表示权重系数;步骤3:数据编码;对状态图像s

t
和s
h
进行编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息;所述IBN模块包括IN层和BN层,IN层能够学习外观变化不变即域无关的特征,BN层能够学习内容信息;步骤3

1:低级特征提取;分别对状态图片s

t
和s
h
进行下采样,在高分辨下提取图像的低级特征F
t
和F
h
;步骤3

2:风格无关语义特征提取;通过IBN模块分别对F
t
和F
h
提取风格无关的语义特征,得到F

t
和F

h
;步骤3

3:关键信息语义特征提取;通过CBAM注意力模块分别对F

t
和F

h
提取关键信息的语义特征,得到F

t
和F

h
;提取过程原理如下:步骤3
‑3‑
1:通道注意子模块对输入特征F使用平均池...

【专利技术属性】
技术研发人员:郭斌方禹杨刘佳琪邱晨於志文
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1