【技术实现步骤摘要】
一种基于环境预测模型的强化学习方法
本专利技术属于强化学习
,涉及到机器学习算法,更具体说是一种基于环境预测模型的强化学习方法。
技术介绍
强化学习(reinforcementlearning:RL)是机器学习中的一个重要研究领域,它以试错的机制与环境进行交互,通过最大化累积奖赏来学习最优策略。为了找到最优策略,要求智能体能够对周围环境有所认知,理解当前所处状态,然后根据任务要求做出符合环境情境的决策动作。深度强化学习(DeepReinforcementLearning,简称DRL)以一种通用的形式将深度学习的智能感知与强化学习的决策能力相结合,直接通过高维感知输入的学习来控制智能体(Agent)的行为,使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题。深度强化学习对环境的感知与表达能够取得成功的重要前提是大量的学习样本。比如DeepMind团队最近提出的RainbowDQN算法需要1800万帧Atari游戏界面,或大约83小时游戏视频来训练模型,而人类学会游戏的时间远远少于算法。然而 ...
【技术保护点】
1.一种基于环境预测模型的强化学习方法,其特征在于包括以下步骤:/n步骤1、收集环境的真实状态动作转移样本数据;/n步骤2、构造状态表示模型,即变分自编码器网络模型,该模型包括编码器和解码器;/n步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛;/n步骤4、在状态表示的隐空间构建状态预测模型,该状态预测模型可采用处理序列数据的递归型神经网络;/n步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数据对的抽象表示,得到状态表示空间下的样本数据。/n步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛。/n步骤7、环境在每一 ...
【技术特征摘要】
1.一种基于环境预测模型的强化学习方法,其特征在于包括以下步骤:
步骤1、收集环境的真实状态动作转移样本数据;
步骤2、构造状态表示模型,即变分自编码器网络模型,该模型包括编码器和解码器;
步骤3、利用步骤1收集的真实状态样本数据训练状态表示模型直至收敛;
步骤4、在状态表示的隐空间构建状态预测模型,该状态预测模型可采用处理序列数据的递归型神经网络;
步骤5、利用状态表示模型将步骤1收集的环境的真实状态动作转移样本数据转化为数据对的抽象表示,得到状态表示空间下的样本数据。
步骤6、利用步骤5得到的隐空间下的样本数据训练状态预测模型直至收敛。
步骤7、环境在每一时间步上为智能体提供一个高维输入观测,得到该观测状态的抽象表示。
步骤8、将步骤7得到的状态抽象表示传入状态预测模型,并随机传入一个动作,让预测模型预测下一个时刻表示模型产生的向量zt+1及表示预测模型的神经网络在下一个时刻自身的隐状态ht+1。
2.根据权利要求1所述的一种...
【专利技术属性】
技术研发人员:赵婷婷,宋亚静,杨巨成,赵青,任德华,王嫄,
申请(专利权)人:天津科技大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。