当前位置: 首页 > 专利查询>北京大学专利>正文

一种用于强化学习的状态数据生成方法和系统技术方案

技术编号:21659574 阅读:16 留言:0更新日期:2019-07-20 05:51
本申请公开了一种用于强化学习的状态数据生成方法和系统,包括:获取智能体在第一学习阶段的所有第一状态数据,并获取第一状态数据中距学习目标符合预设步数范围的第二状态数据;用第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量;将第二状态数据输入已训练好的所述编码器,得到多个第二潜在变量;从第一潜在变量和第二潜在变量中选出符合预设条件的第三潜在变量;将第三潜在变量输入变分自动编码机的解码器,生成第二学习阶段的初始状态数据。通过生成新的状态数据,使智能体以一定概率从新的状态数据而非原始状态数据开始探索,缩短了探索用时,增加了奖励次数,适用于任何强化学习方法。

A Method and System of State Data Generation for Reinforcement Learning

【技术实现步骤摘要】
一种用于强化学习的状态数据生成方法和系统
本申请涉及深度强化学习领域,尤其涉及一种用于强化学习的状态数据生成方法和系统。
技术介绍
深度强化学习(DeepReinforcementLearning,DRL)已经在围棋、机械臂等连续决策任务中取得显著成功。在强化学习中(ReinforcementLearning,RL),智能体(Agent)通过观察环境(Environment)状态(State),选择回报(Reward)期望最大的动作,并接收环境给出的反馈。通过时序差分或策略梯度的方法进行训练,或者二者结合的演员-评论家算法(Actor-CriticAlgorithm)。然而在现实应用中,一个常见的问题是奖励(Reward)稀疏,一些任务只有在完成目标时才能获得奖励,其他情况下奖励均为零。并且目标很难通过传统的探索策略探索到,这给训练智能体带来巨大挑战。在这种情境下,通过精心设计来改变奖励函数使其不再稀疏并不可行,因为这需要依赖专家经验且容易偏离最初目标,使得智能体策略产生偏差。目前有很多方法为解决这一问题而设计。例如采集专家的行为并利用模仿学习,然而专家行为的采集本身就是很困难的。事后经验回放(HindsightExperienceReplay,HER)通过设置一些不同于最初设定的目标,这本质上是一种数据增强的方法,且学到的目标通常不是最终的目标。探索类的方法可以分为两类,基于计数的探索和基于好奇心的探索。它们都是通过量化状态的新奇度并作为一个内部的奖励来激励智能体探索新的状态。但是内部奖励的引入偏离了最初的目标,且容易带来训练过程的不稳定。综上所述,需要提供一种奖励次数多,不偏离目标且训练过程稳定的状态生成方法与系统。
技术实现思路
为解决以上问题,本申请提出了一种用于强化学习的状态数据生成方法和系统。一方面,本申请提出一种用于强化学习的状态数据生成方法,包括:获取智能体在第一学习阶段的所有第一状态数据,以及,获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据;利用所述所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量;将所述第二状态数据输入所述已训练好的变分自动编码机的编码器,得到多个第二潜在变量;采用拒绝采样算法,从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量;将所述第三潜在变量输入所述变分自动编码机的解码器,生成所述智能体在第二学习阶段的初始状态数据。优选地,所述利用所述所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量,包括:利用所述所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器;对所述编码器的隐空间进行采样,得到多个第一潜在变量。优选地,所述将所述第二状态数据输入所述已训练好的变分自动编码机的编码器,得到多个第二潜在变量,包括:对第二状态数据进行采样;将采样到的第二状态数据输入所述已训练好的变分自动编码机的编码器中,得到与各状态数据对应的潜在变量;对所述潜在变量进行高斯采样,得到多个第二潜在变量。优选地,所述采用拒绝采样算法,从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量,包括:从第一潜在变量和第二潜在变量中选取一个向量,将所述向量放入概率密度函数中计算,得到第一比较值;从0至常数函数的区间内随机选择一个值作为第二比较值;若所述第一比较值小于所述第二比较值,则将所述第一比较值对应的向量确定为第三潜在变量。优选地,所述将所述向量放入概率密度函数中计算之前,还包括:使用核密度估计对编码器的隐空间中的多维均值向量进行估计,得到概率密度函数。优选地,所述编码器的隐空间中的多维均值向量为使用第一状态数据训练变分自动编码机后得到的向量。优选地,所述从0至常数函数的区间内随机选择一个值作为第二比较值之前,还包括:使用概率密度函数中的值构造常数函数。优选地,所述智能体在第二学习阶段,按照设定的概率,以生成的初始状态数据为起点开始运行。优选地,所述第一状态数据存储在第一缓冲区,所述第二状态数据存储在第二缓冲区。第二方面,本申请提出一种用于强化学习的状态数据生成系统,包括:事件存储模块,用于存储智能体在第一学习阶段的所有第一状态数据,以及,存储所有第一状态数据中距学习目标符合预设步数范围的第二状态数据;训练与处理模块,用于使用所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量;将所述第二状态数据输入所述已训练好的变分自动编码机的编码器,得到多个第二潜在变量;采样与筛选模块,用于使用拒绝采样算法,从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量;状态生成模块,用于将所述第三潜在变量输入所述变分自动编码机的解码器,生成所述智能体在第二学习阶段的初始状态数据;集合存储模块,用于存储各潜在变量。本申请的优点在于:收集智能体所经历的事件中的所有状态,对变分自动编码机进行训练,减少训练过程的不稳定;用训练好的变分自动编码机的编码器对筛选出的状态数据进行计算,生成新的状态数据,使智能体以一定概率从新生成的状态数据而非原始状态数据(事件的初始状态)开始探索,缩短了探索所需时间,增加了奖励的次数;通过筛选出在一定阈值范围内的状态数据,并根据这些状态数据生成新的状态,不会偏离最初的目标;通过使用事件中的状态数据并生成新的状态数据,能够动态地平衡强化学习中的探索与利用,并且能够配合任何强化学习方法使用且不依赖于先验知识与专家经验,具有很强的实用性。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:图1是本申请提供的一种用于强化学习的状态数据生成方法的步骤示意图;图2是本申请提供的一种用于强化学习的状态数据生成方法的确定第三潜在变量的示意图;图3是本申请提供的一种用于强化学习的状态数据生成系统的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本申请的实施方式,提出一种用于强化学习的状态数据生成方法,如图1所示,包括:S101,获取智能体在第一学习阶段的所有第一状态数据,以及,获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据;S102,利用所述所有第一状态数据训练变分自动编码机(VariationalAuto-Encoder,VAE),得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量;S103,将所述第二状态数据输入所述已训练好的变分自动编码机的编码器,得到多个第二潜在变量;S104,采用拒绝采样算法,从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量;S105,将所述第三潜在变量输入所述变分自动编码机的解码器,生成所述智能体在第本文档来自技高网
...

【技术保护点】
1.一种用于强化学习的状态数据生成方法,其特征在于,包括:获取智能体在第一学习阶段的所有第一状态数据,以及,获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据;利用所述所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量;将所述第二状态数据输入所述已训练好的变分自动编码机的编码器,得到多个第二潜在变量;采用拒绝采样算法,从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量;将所述第三潜在变量输入所述变分自动编码机的解码器,生成所述智能体在第二学习阶段的初始状态数据。

【技术特征摘要】
1.一种用于强化学习的状态数据生成方法,其特征在于,包括:获取智能体在第一学习阶段的所有第一状态数据,以及,获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据;利用所述所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量;将所述第二状态数据输入所述已训练好的变分自动编码机的编码器,得到多个第二潜在变量;采用拒绝采样算法,从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量;将所述第三潜在变量输入所述变分自动编码机的解码器,生成所述智能体在第二学习阶段的初始状态数据。2.如权利要求1所述的一种用于强化学习的状态数据生成方法,其特征在于,所述利用所述所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量,包括:利用所述所有第一状态数据训练变分自动编码机,得到已训练好的变分自动编码机的编码器;对所述编码器的隐空间进行采样,得到多个第一潜在变量。3.如权利要求1所述的一种用于强化学习的状态数据生成方法,其特征在于,所述将所述第二状态数据输入所述已训练好的变分自动编码机的编码器,得到多个第二潜在变量,包括:对第二状态数据进行采样;将采样到的第二状态数据输入所述已训练好的变分自动编码机的编码器中,得到与各状态数据对应的潜在变量;对所述潜在变量进行高斯采样,得到多个第二潜在变量。4.如权利要求1所述的一种用于强化学习的状态数据生成方法,其特征在于,所述采用拒绝采样算法,从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量,包括:从第一潜在变量和第二潜在变量中选取一个向量,将所述向量放入概率密度函数中计算,得到第一比较值;从0至常数函数的区间内随机选择一个值作为第二比较值;若所述第一比较...

【专利技术属性】
技术研发人员:卢宗青姜杰川
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1