一种用于强化学习的状态数据生成方法和系统技术方案

技术编号：21659574 阅读：16 留言：0更新日期：2019-07-20 05:51

本申请公开了一种用于强化学习的状态数据生成方法和系统，包括：获取智能体在第一学习阶段的所有第一状态数据，并获取第一状态数据中距学习目标符合预设步数范围的第二状态数据；用第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；将第二状态数据输入已训练好的所述编码器，得到多个第二潜在变量；从第一潜在变量和第二潜在变量中选出符合预设条件的第三潜在变量；将第三潜在变量输入变分自动编码机的解码器，生成第二学习阶段的初始状态数据。通过生成新的状态数据，使智能体以一定概率从新的状态数据而非原始状态数据开始探索，缩短了探索用时，增加了奖励次数，适用于任何强化学习方法。

A Method and System of State Data Generation for Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种用于强化学习的状态数据生成方法和系统
本申请涉及深度强化学习领域，尤其涉及一种用于强化学习的状态数据生成方法和系统。
技术介绍
深度强化学习(DeepReinforcementLearning，DRL)已经在围棋、机械臂等连续决策任务中取得显著成功。在强化学习中(ReinforcementLearning，RL)，智能体(Agent)通过观察环境(Environment)状态(State)，选择回报(Reward)期望最大的动作，并接收环境给出的反馈。通过时序差分或策略梯度的方法进行训练，或者二者结合的演员-评论家算法(Actor-CriticAlgorithm)。然而在现实应用中，一个常见的问题是奖励(Reward)稀疏，一些任务只有在完成目标时才能获得奖励，其他情况下奖励均为零。并且目标很难通过传统的探索策略探索到，这给训练智能体带来巨大挑战。在这种情境下，通过精心设计来改变奖励函数使其不再稀疏并不可行，因为这需要依赖专家经验且容易偏离最初目标，使得智能体策略产生偏差。目前有很多方法为解决这一问题而设计。例如采集专家的行为并利用模仿学习，然而专家行为的采集本身就是很困难的。事后经验回放(HindsightExperienceReplay，HER)通过设置一些不同于最初设定的目标，这本质上是一种数据增强的方法，且学到的目标通常不是最终的目标。探索类的方法可以分为两类，基于计数的探索和基于好奇心的探索。它们都是通过量化状态的新奇度并作为一个内部的奖励来激励智能体探索新的状态。但是内部奖励的引入偏离了最初的目标，且容易带来训练过程的不稳定。综上所述，需要...

【技术保护点】
1.一种用于强化学习的状态数据生成方法，其特征在于，包括：获取智能体在第一学习阶段的所有第一状态数据，以及，获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据；利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量；采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量；将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据。

【技术特征摘要】
1.一种用于强化学习的状态数据生成方法，其特征在于，包括：获取智能体在第一学习阶段的所有第一状态数据，以及，获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据；利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量；采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量；将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据。2.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量，包括：利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器；对所述编码器的隐空间进行采样，得到多个第一潜在变量。3.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量，包括：对第二状态数据进行采样；将采样到的第二状态数据输入所述已训练好的变分自动编码机的编码器中，得到与各状态数据对应的潜在变量；对所述潜在变量进行高斯采样，得到多个第二潜在变量。4.如权利要求1所述的一种用于强化学习的状态数据生成方法，其特征在于，所述采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量，包括：从第一潜在变量和第二潜在变量中选取一个向量，将所述向量放入概率密度函数中计算，得到第一比较值；从0至常数函数的区间内随机选择一个值作为第二比较值；若所述第一比较...

【专利技术属性】
技术研发人员：卢宗青，姜杰川，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人