System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于扩散的双生成回放的持续离线强化学习方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于扩散的双生成回放的持续离线强化学习方法技术

技术编号:40560285 阅读:10 留言:0更新日期:2024-03-05 19:22
一种基于扩散的双生成回放的持续离线强化学习方法,首先将持续学习策略解耦为基于扩散的行为生成模型和多头动作评估模型;其次,训练任务‑条件扩散模型来模拟旧任务的状态分布,生成的状态与行为生成模型的相应响应配对,以用高保真回放的伪样本表示旧任务;最后,通过将伪样本与新任务的真实样本交错,不断更新状态和行为生成模型以建模逐渐多样化的行为,并以行为克隆方式规范多头动作评估模型以减少遗忘。本发明专利技术提出一种双重生成回放框架,通过生成的伪数据的并发回放来保留旧任务的知识,实验证明了本发明专利技术方法在持续离线学习中实现了更好的前向迁移并保持更少的遗忘,并且由于其样本空间的高保真回放而非常接近使用旧任务真实数据的结果。

【技术实现步骤摘要】

本专利技术用于人工智能领域,具体为一种基于扩散的双生成回放的持续离线强化学习方法,用于解决现实场景中的离线任务。


技术介绍

1、离线强化学习(orl)允许代理从预先收集的数据集中学习,而无需与环境实时交互。这种学习范式对于许多在线收集数据可能非常昂贵或危险的现实场景至关重要,例如机器人、自动驾驶和医疗保健等,并且近年来引起了广泛关注。离线强化学习的出现也为将海量数据集转变为强大的顺序决策引擎带来了巨大的希望,例如decision transformers,类似于gpt等大型语言模型的兴起。

2、现实世界中,随着新任务的大量涌现,大量新数据随之产生。然而,当前的参数强化学习模型从固定批次的训练数据中学习表征,并且在处理新任务时很容易忘记以前获得的知识,这种现象称为灾难性遗忘或干扰。因此,持续rl,也称为终身rl,被广泛研究以解决两个主要问题:i)减轻灾难性遗忘,ii)允许前向迁移,即利用先前任务的知识来有效学习新任务。近年来,持续学习出现了多种方法,主要可分为:基于正则化的、参数隔离和排练方法。其中,带有经验回放的排练因其简单且效果良好而成为流行的选择。在最近的研究中,实验表明经验回放显着提高了迁移和最终性能,并在持续强化学习中发挥着关键作用。

3、本专利技术重点关注连续离线强化学习(corl,continual offline reinforcementlearning),连续离线强化学习corl结合了连续强化学习和离线强化学习,使智能体能够从静态数据集中学习多个任务,而不会忘记之前的任务。然而,corl在平衡稳定性和可塑性方面面临挑战。corl向学习者呈现一系列离线任务,其中数据集是通过不同的行为策略收集的,当前基于回放的方法面临着离线强化学习的内在属性带来的两个主要挑战。首先,与监督学习不同,强化学习模型更容易在不同任务之间泛化不足,而现有的策略模型通常是单峰高斯模型,分布表达能力有限。在corl领域,随着新数据集的不断出现,收集到的行为逐渐变得多样化,这可能会由于泛化不足和分布差异而导致性能下降。其次,现有方法依赖于大量缓冲区来存储来自先前任务的真实样本。然而,这带来了内存容量的限制,随着新任务的不断出现,这种限制变得更加明显,限制了其对大规模问题以及涉及隐私问题的实际场景的适用性。

4、扩散模型在生成高保真合成图像、音频和视频等方面取得了巨大成功。无条件扩散模型不需要额外的信号,通过估计每一步的噪声来学习逆过程,例如去噪扩散概率模型(denoising diffusion probabilistic models,简称ddpm)。为了加速采样,去噪扩散隐式模型(denoising diffusion implicit models,简称ddim)将ddpm的马尔可夫前向过程推广到一类导致相同训练目标的非马尔可夫过程。条件扩散模型依赖于各种源信号(例如图像任务中的类标签)来生成相应的数据。


技术实现思路

1、本专利技术要解决的问题是:对于现有连续离线强化学习中的问题,为了解决目前持续离线强化学习在实际应用中存在的挑战,提出一种新的连续离线强化学习方法。

2、本专利技术的技术方案为:一种基于扩散的双生成回放的持续离线强化学习方法,智能体在持续学习策略下,以离线数据集为旧任务,通过旧任务不断学习新任务,其中利用扩散模型对旧任务的状态分布和相应行为进行高保真度建模,使持续学习策略继承分布表达,用于新任务;包括如下步骤:

3、s1、将持续学习策略解耦为基于扩散的行为生成模型和多头动作评估模型;

4、s2、基于任务-条件扩散训练状态生成模型来模拟旧任务的状态分布,状态生成模型生成的状态与行为生成模型相应配对,得到的状态分布和动作分布组成旧任务的伪样本集,用于高保真回放;

5、s3、通过将伪样本与新任务的真实样本交错,对状态和行为高保真双重生成回放,不断更新状态和行为生成模型以建模逐渐多样化的行为,并以行为克隆方式规范多头动作评估模型以减少遗忘;

6、由步骤s1-s3搭建智能体的强化学习模型实现持续学习策略,实现智能体的持续离线强化学习。

7、作为优选,所述步骤s1为:

8、步骤1.1,解耦持续学习策略:将持续学习策略π(a|s)的学习解耦为行为生成模型μφ(a|s)和多头动作评估模型qθ(s,a),并形成策略改进步骤:

9、π(a|s)∝μφ(a|s)·exp(αqθ(s,a)),

10、其中a表示动作,s表示状态,α是在保守改进和贪婪改进之间取得平衡度的参数;

11、步骤1.2,步骤1.1的行为生成模型μφ(a|s)用扩散概率模型建模生成,行为生成模型μφ(a|s)用于拟合离线数据集中的行为分布μ(·|s),训练状态条件噪声预测模型∈φ来预测添加到从行为分布μ(·|s)采样的动作a中的噪声∈,如下所示:

12、

13、其中是扩散时间步,是高斯噪声、αt、σt由扩散模型的前向扩散过程确定,φ是状态条件噪声预测模型的参数,状态条件噪声预测模型∈φ经过训练,预测的噪声∈将受扰动的动作at:=αta+σt∈降噪回原始未受扰动的a,上标t表示扩散时间步长,之后,行为生成模型μφ(a|s)即可根据给定状态s输出对应的动作a;

14、步骤1.3,步骤1.1的多头动作评估模型qθ(s,a)为多头值函数网络,其中θ是多头动作评估模型的参数,用于评估从行为生成模型μφ(a|s)中采样的动作;给定一个由行为策略μ收集的离线数据集其中i为轨迹中的时间步长,(si,ai,ri)是状态-动作-奖励元组,使用基于规划的贝尔曼算子更新动作评估模型的参数θ:

15、

16、

17、

18、其中j=1,2,...是迭代次数,设为原始的轨迹回报,以上公式提供了离线数据集内的隐式规划方案;

19、最后,使用重要性加权对在给定状态s下行为生成模型生成的所有动作进行重新采样,exp(αqθ(s,a))是采样权重。

20、作为优选,所述步骤s2具体为:

21、步骤2.1,状态生成模型训练一个基于扩散的生成器来模拟旧任务的状态分布k表示顺序任务标识,所述的基于扩散的生成器学习基于得分的任务条件噪声预测模型来预测添加到状态s的噪声∈:

22、

23、其中是扩散时间步、是高斯噪声、αt和σt是前向扩散过程的超参数,是任务条件噪声预测模型的参数,状态s是从第k个任务的数据集中采样的,任务条件噪声预测模型经过训练,预测的噪声∈将扰动状态st:=αts+σt∈还原到原始未扰动状态s,使得随机噪声反向来模拟原始状态分布,为了为每个旧任务生成高保真状态样本,将任务表示标识k作为扩散模型的条件

24、步骤2.2,伪样本构造,在生成回放的框架下,使用训练好的状态生成模型根据任务标识为旧任务生成状态分布将生成的状态作为条件,通过训练好的行为生成模型μφ生成对应的动作分布生成的状态分布和动本文档来自技高网...

【技术保护点】

1.一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于智能体在持续学习策略下,以离线数据集为旧任务,通过旧任务不断学习新任务,其中利用扩散模型对旧任务的状态分布和相应行为进行高保真度建模,使持续学习策略继承分布表达,用于新任务;包括如下步骤:

2.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S1为:

3.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S2具体为:

4.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S3包括:

【技术特征摘要】

1.一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于智能体在持续学习策略下,以离线数据集为旧任务,通过旧任务不断学习新任务,其中利用扩散模型对旧任务的状态分布和相应行为进行高保真度建模,使持续学习策略继承分布表达,用于新任务;包括如下步骤:

2.根据权利要求1所述的一种基于扩散...

【专利技术属性】
技术研发人员:王志刘金梅李文斌魏婧雯陈春林王博李华雄辛博朱张青
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1