一种基于强化学习的民航领域自适应数据表示对齐方法技术

技术编号:41963964 阅读:16 留言:0更新日期:2024-07-10 16:46
本发明专利技术公开了一种基于强化学习的民航领域自适应数据表示对齐方法,该方法将领域适应与强化学习分开。本发明专利技术引入了特征级和像素级的多粒度约束来指导训练过程。在特征层面引入领域对抗训练和互信息最大化约束,实现了特征的跨领域对齐,从而显著提高了源智能体在目标领域的性能。同时,在像素级引入循环一致变分自编码器(Cycle‑Consistent Variational Autoencoders,VAE),促进域通用特征和域特定特征的解耦,并保持状态图像中的判别信息。在第二阶段,本发明专利技术基于提取的域不变特征,在源域中使用深度强化学习技术训练智能体。由于智能体是用跨域不变特征训练的,因此它的行为策略可以在不同的域之间转移,因此有望在不与环境交互的情况下在目标域中获得良好的性能。

【技术实现步骤摘要】

本专利技术涉及深度学习领域,具体地讲,是涉及一种基于强化学习的民航领域自适应数据表示对齐方法


技术介绍

1、深度强化学习(deep reinforcement learning,rl)已被证明在视频游戏、智能机器人控制和自动驾驶中是有效的。然而,深度强化学习仍然面临两个挑战。首先,强化学习代理需要通过大量的探索与环境进行交互。在实际应用场景中,它通常具有较大的状态空间和操作空间。此外,以深度神经网络为代表的策略往往具有复杂的参数结构和操作。所有这些问题使得智能体的训练非常耗时且计算量很大。在每个领域从头开始重新训练代理是不现实的。其次,强化学习模型难以适应环境的变化。实验表明,即使是很小的视觉变化也会大大降低rl代理的性能,这意味着在不同域之间直接转移代理的策略是无效的。上述问题阻碍了性能的进一步提高和在不同环境下的泛化能力。


技术实现思路

1、本专利技术的目的在于提供一种基于强化学习的民航领域自适应数据表示对齐方法,主要解决深度强化学习在实际应用中面临的两个挑战:一是智能体训练耗时且计算量大,二是模型难以本文档来自技高网...

【技术保护点】

1.一种基于强化学习的民航域自适应数据表示对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于强化学习的民航域自适应数据表示对齐方法,其特征在于,在所述步骤S1中,采用SS和ST来表示源域和目标域的状态空间;其中,源域中的源观测样本为nS个,目标域中的目标观测样本为nT个;源域中的样本和目标域中样本数据分布PS(SS)和PT(ST)不同。

3.根据权利要求2所述一种基于强化学习的民航域自适应数据表示对齐方法,其特征在于,在所述步骤S2中,所述深度神经网络模型由特征编码器F、对抗性鉴别器Dd、互信息最大化正则化I(fT,fS)和特征解码器Dec构成;...

【技术特征摘要】

1.一种基于强化学习的民航域自适应数据表示对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于强化学习的民航域自适应数据表示对齐方法,其特征在于,在所述步骤s1中,采用ss和st来表示源域和目标域的状态空间;其中,源域中的源观测样本为ns个,目标域中的目标观测样本为nt个;源域中的样本和目标域中样本数据分布ps(ss)和pt(st)不同。

3.根据权利要求2所述一种基于强化学习的民航域自适应数据表示对齐方法,其特征在于,在所述步骤s2中,所述深度神经网络模型由特征编码器f、对抗性鉴别器dd、互信息最大化正则化i(ft,fs)和特征解码器dec构成;其中,f将源域和目标域基于像素的状态表示s映射到潜在特征空间,实现域特定特征和域不变特征f的解耦;dec将潜在特征空间中构造的域特定特征和域不变特征f反向映射到观测信息s′,并用原始空间中的像素网格表示;dd是一种从目标特征中识别源特...

【专利技术属性】
技术研发人员:李冬芬王瑞锦赖金山花晓雨程延松付优朱永豪蒋洋洋潘野
申请(专利权)人:成都理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1