【技术实现步骤摘要】
利用策略模型辅助训练的GP世界模型及其训练方法
[0001]本专利技术属于世界模型
,尤其是涉及一种利用策略模型辅助训练的GP世界模型及其训练方法。
技术介绍
[0002]深度强化学习框架是一个能够很好地解决样本数据有限问题的框架,深度强化学习框架主要包括两个部分:策略模型和世界模型。策略模型使用经验池中的经验进行训练,世界模型通过学习状态转换和奖励模仿环境,世界模型学习环境生成的经验同样存储在经验池中为策略模型提供更多的训练数据,因此能够克服样本数据不足的问题。
[0003]目前,深度强化学习的策略模型和世界模型都是各自训练的:世界模型生成的模拟经验和与环境交互生成的真实经验存储在经验池中供策略模型训练以更新策略模型的损失函数,世界模型利用策略模型与环境交互生成的真实经验进行训练以更新世界模型的损失函数。申请人在长期研究中发现这种方式实现的深度强化学习的世界模型训练效果欠佳,但此前不曾有合适的解决方案。
[0004]在最新的研究中,申请人试图用策略模型来辅助GP世界模型训练,事后证明,策略的稳定性能够 ...
【技术保护点】
【技术特征摘要】
1.一种利用策略模型辅助训练的GP世界模型,GP世界模型包括用于训练世界模型的损失函数,其特征在于,所述的损失函数包括第一损失函数和第二损失函数,所述的第一损失函数为GP世界模型的自有损失函数,所述第二损失函数为策略模型的损失函数。2.根据权利要求1所述的利用策略模型辅助训练的GP世界模型,其特征在于,所述的第二损失函数为策略模型在每次训练过程中,每一步训练更新模型参数后所得的损失函数的平均值。3. 根据权利要求1或2所述的利用策略模型辅助训练的GP世界模型,其特征在于,所述的损失函数包括:(1)其中分别为可调系数,为GP世界模型的自有损失函数,为策略模型的损失函数。4. 根据权利要求3所述的利用策略模型辅助训练的GP世界模型,其特征在于,GP世界模型的自有损失函数包括:(2)其中,为预测得到的协方差,y表示训练数据中的输出值。5. 根据权利要求4所述的利用策略模型辅助训练的GP世界模型,其特征在于,所述的协方差通过以下方式预测:(3)D是N*M维的对角矩阵,I表示单位矩阵,用于描述不同任务之间的关联,表示训练数据之间的关联矩阵。6.根据权利要求3所述的利用策略模型辅助训练的GP世界模型,其特征在于,所述的策略模型...
【专利技术属性】
技术研发人员:葛品,吴冠霖,方文其,平洋,栾绍童,缪正元,戴迎枫,沈源源,金新竹,
申请(专利权)人:南湖实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。