【技术实现步骤摘要】
本专利技术用于人工智能领域,具体为一种基于扩散的双生成回放的持续离线强化学习方法,用于解决现实场景中的离线任务。
技术介绍
1、离线强化学习(orl)允许代理从预先收集的数据集中学习,而无需与环境实时交互。这种学习范式对于许多在线收集数据可能非常昂贵或危险的现实场景至关重要,例如机器人、自动驾驶和医疗保健等,并且近年来引起了广泛关注。离线强化学习的出现也为将海量数据集转变为强大的顺序决策引擎带来了巨大的希望,例如decision transformers,类似于gpt等大型语言模型的兴起。
2、现实世界中,随着新任务的大量涌现,大量新数据随之产生。然而,当前的参数强化学习模型从固定批次的训练数据中学习表征,并且在处理新任务时很容易忘记以前获得的知识,这种现象称为灾难性遗忘或干扰。因此,持续rl,也称为终身rl,被广泛研究以解决两个主要问题:i)减轻灾难性遗忘,ii)允许前向迁移,即利用先前任务的知识来有效学习新任务。近年来,持续学习出现了多种方法,主要可分为:基于正则化的、参数隔离和排练方法。其中,带有经验回放的排练因其简单
...【技术保护点】
1.一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于智能体在持续学习策略下,以离线数据集为旧任务,通过旧任务不断学习新任务,其中利用扩散模型对旧任务的状态分布和相应行为进行高保真度建模,使持续学习策略继承分布表达,用于新任务;包括如下步骤:
2.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S1为:
3.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于,所述步骤S2具体为:
4.根据权利要求1所述的一种基于扩散的双生成回放的持续离线强化学习方法,其特征
...【技术特征摘要】
1.一种基于扩散的双生成回放的持续离线强化学习方法,其特征在于智能体在持续学习策略下,以离线数据集为旧任务,通过旧任务不断学习新任务,其中利用扩散模型对旧任务的状态分布和相应行为进行高保真度建模,使持续学习策略继承分布表达,用于新任务;包括如下步骤:
2.根据权利要求1所述的一种基于扩散...
【专利技术属性】
技术研发人员:王志,刘金梅,李文斌,魏婧雯,陈春林,王博,李华雄,辛博,朱张青,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。