一种基于环境预测模型的强化学习方法技术

技术编号:26378672 阅读:35 留言:0更新日期:2020-11-19 23:47
本发明专利技术涉及一种基于环境预测模型的强化学习方法,其收集环境的真实状态动作转移样本数据;构造环境表示模型即变分自编码器网络模型;训练变分自编码器网络模型直至收敛;在隐空间构建环境预测模型,该网络模型为递归神经网络模型;结合历史数据训练递归神经网络模型直至收敛,在潜在空间生成可预测未来状态的表示,并将递归型神经网络自身的隐状态表示为智能体对于自身行动所引发的环境变化的预测。本发明专利技术在深度神经网络中的变分自编码器及递归型神经网络相结合的基础上进行改良,生成虚拟环境数据训练智能体,并把从中学会的策略迁移到真实环境之中。该模型的设计摆脱了深度强化学习在实际应用中对大量学习样本的要求,生成数据的多样性可从一定程度上解决深度强化学习模型存在对其所训练数据过度拟合的问题。

【技术实现步骤摘要】
一种基于环境预测模型的强化学习方法
本专利技术属于强化学习
,涉及到机器学习算法,更具体说是一种基于环境预测模型的强化学习方法。
技术介绍
强化学习(reinforcementlearning:RL)是机器学习中的一个重要研究领域,它以试错的机制与环境进行交互,通过最大化累积奖赏来学习最优策略。为了找到最优策略,要求智能体能够对周围环境有所认知,理解当前所处状态,然后根据任务要求做出符合环境情境的决策动作。深度强化学习(DeepReinforcementLearning,简称DRL)以一种通用的形式将深度学习的智能感知与强化学习的决策能力相结合,直接通过高维感知输入的学习来控制智能体(Agent)的行为,使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题。深度强化学习对环境的感知与表达能够取得成功的重要前提是大量的学习样本。比如DeepMind团队最近提出的RainbowDQN算法需要1800万帧Atari游戏界面,或大约83小时游戏视频来训练模型,而人类学会游戏的时间远远少于算法。然而,对于实际应用中的复本文档来自技高网...

【技术保护点】
1.一种基于环境预测模型的强化学习方法,其特征在于包括以下步骤:/n步骤1、收集环境的真实状态动作转移样本数据;/n步骤2、构造状态表示模型,即变分自编码器网络模型,该模型包括编码器和解码器;/n步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛;/n步骤4、在状态表示的隐空间构建状态预测模型,该状态预测模型可采用处理序列数据的递归型神经网络;/n步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数据对的抽象表示,得到状态表示空间下的样本数据。/n步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛。/n步骤7、环境在每一时间步上为智能体提供...

【技术特征摘要】
1.一种基于环境预测模型的强化学习方法,其特征在于包括以下步骤:
步骤1、收集环境的真实状态动作转移样本数据;
步骤2、构造状态表示模型,即变分自编码器网络模型,该模型包括编码器和解码器;
步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛;
步骤4、在状态表示的隐空间构建状态预测模型,该状态预测模型可采用处理序列数据的递归型神经网络;
步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数据对的抽象表示,得到状态表示空间下的样本数据。
步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛。
步骤7、环境在每一时间步上为智能体提供一个高维输入观测,得到该观测状态的抽象表示。
步骤8、将步骤7得到的状态抽象表示传入状态预测模型,并随机传入一个动作,让预测模型预测下一个时刻表示模型产生的向量zt+1及表示预测模型的神经网络在下一个时刻自身的隐状态ht+1。


2.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:赵婷婷宋亚静杨巨成赵青任德华王嫄
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1