【技术实现步骤摘要】
一种基于零样本泛化的强化学习模型环境自适应方法
[0001]本专利技术属于深度学习
,具体涉及一种强化学习模型环境自适应方法。
技术介绍
[0002]基于视觉的深度强化学习在各种控制任务中取得了成功,并表现出超乎人类的性能,例如雅达利游戏、围棋游戏、机器人控制、自动驾驶等任务。但是,深度强化学习模型的训练依赖于与特定环境的频繁交互,一旦环境发生变化,模型便容易做出不合理决策,性能显著下降。不同于游戏环境状态空间固定,边端智能体所处的现实环境纷繁复杂,且随时动态变化,训练数据难以覆盖所有环境状态,因此,环境适应能力对深度强化学习模型的大规模部署应用至关重要。
[0003]现已有研究者通过零样本泛化、迁移学习、持续学习等方法探索模型的环境自适应技术,其中零样本泛化在环境发生小范围改变的大多数场景下应用广泛。零样本泛化是指在源环境训练模型,使模型在多个不可见的目标环境表现良好,不需要模型在新环境演化,对智能体没有算力要求,主要有基于数据增强的方法、基于状态表征的方法和基于策略学习的方法。基于数据增强的方法是指通过随机增强训练数据增强模型的鲁棒性,代表性方法有Random convolution、Mixup、Cutmix、Attentionneuron等。此类方法单独使用容易阻碍训练并导致次优性能,因此通常与后两种方法配合使用。基于状态表征的方法是指训练具有泛化能力的编码器,从而增强模型整体的泛化能力,例如PIE
‑
G、LUSR、MoDE、DBC等。基于策略学习的方法是指训练深度强化学习策略模 ...
【技术保护点】
【技术特征摘要】
1.一种基于零样本泛化的强化学习模型环境自适应方法,其特征在于,包括以下步骤:步骤1:数据采集;通过强化学习模型控制智能体按策略π采取行动与环境交互,收集(s
t
,a
t
,r
t
,s
t+1
)序列作为训练数据;在训练过程中,数据收集与模型参数更新交替进行;s
t
,a
t
,r
t
,s
t+1
分别表示智能体当前时刻的状态图像、采取的行动、获得的奖励和下一时刻的状态图像;步骤2:数据增强;从训练数据B中随机选择t时刻与h时刻的两组数据(s
t
,a
t
,r
t
,s
t+1
)、(s
h
,a
h
,r
h
,s
h+1
),将状态图像s
t
和s
h
裁剪成A
×
A的大小,对s
t
状态图像进行数据增强,得到s
′
t
;使用干扰图片I对状态图片s
t
进行mixup线性数据增强:f(s
t
)=αs
t
+(1
‑
α)I式中,f(s
t
)表示增强后的状态图像,α表示权重系数;步骤3:数据编码;对状态图像s
′
t
和s
h
进行编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息;所述IBN模块包括IN层和BN层,IN层能够学习外观变化不变即域无关的特征,BN层能够学习内容信息;步骤3
‑
1:低级特征提取;分别对状态图片s
′
t
和s
h
进行下采样,在高分辨下提取图像的低级特征F
t
和F
h
;步骤3
‑
2:风格无关语义特征提取;通过IBN模块分别对F
t
和F
h
提取风格无关的语义特征,得到F
′
t
和F
′
h
;步骤3
‑
3:关键信息语义特征提取;通过CBAM注意力模块分别对F
′
t
和F
′
h
提取关键信息的语义特征,得到F
″
t
和F
″
h
;提取过程原理如下:步骤3
‑3‑
1:通道注意子模块对输入特征F使用平均池...
【专利技术属性】
技术研发人员:郭斌,方禹杨,刘佳琪,邱晨,於志文,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。