当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于扩散的双生成回放的持续离线强化学习方法技术

技术编号:40560285 阅读:34 留言:0更新日期:2024-03-05 19:22
一种基于扩散的双生成回放的持续离线强化学习方法,首先将持续学习策略解耦为基于扩散的行为生成模型和多头动作评估模型;其次,训练任务‑条件扩散模型来模拟旧任务的状态分布,生成的状态与行为生成模型的相应响应配对,以用高保真回放的伪样本表示旧任务;最后,通过将伪样本与新任务的真实样本交错,不断更新状态和行为生成模型以建模逐渐多样化的行为,并以行为克隆方式规范多头动作评估模型以减少遗忘。本发明专利技术提出一种双重生成回放框架,通过生成的伪数据的并发回放来保留旧任务的知识,实验证明了本发明专利技术方法在持续离线学习中实现了更好的前向迁移并保持更少的遗忘,并且由于其样本空间的高保真回放而非常接近使用旧任务真实数据的结果。

【技术实现步骤摘要】

本专利技术用于人工智能领域,具体为一种基于扩散的双生成回放的持续离线强化学习方法,用于解决现实场景中的离线任务。


技术介绍

1、离线强化学习(orl)允许代理从预先收集的数据集中学习,而无需与环境实时交互。这种学习范式对于许多在线收集数据可能非常昂贵或危险的现实场景至关重要,例如机器人、自动驾驶和医疗保健等,并且近年来引起了广泛关注。离线强化学习的出现也为将海量数据集转变为强大的顺序决策引擎带来了巨大的希望,例如decision transformers,类似于gpt等大型语言模型的兴起。

2、现实世界中,随着新任务的大量涌现,大量新数据随之产生。然而,当前的参数强化学习模型从固定批次的训练数据中学习表征,并且在处理新任务时很容易忘记以前获得的知识,这种现象称为灾难性遗忘或干扰。因此,持续rl,也称为终身rl,被广泛研究以解决两个主要问题:i)减轻灾难性遗忘,ii)允许前向迁移,即利用先前任务的知识来有效学习新任务。近年来,持续学习出现了多种方法,主要可分为:基于正则化的、参数隔离和排练方法。其中,带有经验回放的排练因其简单且效果良好而成为流行本文档来自技高网...

【技术保护点】

1.一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于智能体在持续学习策略下,以离线数据集为旧任务,通过旧任务不断学习新任务,其中利用扩散模型对旧任务的状态分布和相应行为进行高保真度建模,使持续学习策略继承分布表达,用于新任务;包括如下步骤:

2.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S1为:

3.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S2具体为:

4.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S3包...

【技术特征摘要】

1.一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于智能体在持续学习策略下,以离线数据集为旧任务,通过旧任务不断学习新任务,其中利用扩散模型对旧任务的状态分布和相应行为进行高保真度建模,使持续学习策略继承分布表达,用于新任务;包括如下步骤:

2.根据权利要求1所述的一种基于扩散...

【专利技术属性】
技术研发人员:王志刘金梅李文斌魏婧雯陈春林王博李华雄辛博朱张青
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1