【技术实现步骤摘要】
样本池构建方法和装置、以及算法训练方法和装置
本公开涉及计算机
,更具体地,涉及一种样本池构建方法和装置、以及算法训练方法和装置。
技术介绍
近年来,强化学习(ReinforcementLearning)作为机器学习领域的一个研究热点,已经广泛应用于仿真模拟、机器人控制、优化与调度、游戏博弈等诸多领域。强化学习的基本思想是通过与环境的交互,寻求最大化智能体(agent)以从环境中获得累计奖赏值的最优策略。在实现本公开构思的过程中,专利技术人发现现有技术中至少存在以下问题:为了解决强化学习中探索(exploration)和利用(exploitation)的选择问题,智能体(agent)在学习与训练时包含两种策略:行为策略和目标策略。行为策略是用来与环境互动产生数据的策略,即在探索过程中做决策。而目标策略在行为策略产生的数据中不断学习及优化,该目标策略即为训练完毕去实际应用的策略。因此,强化学习可分为on-policy(同策略)和off-policy(异策略)两大类算法。同策略算法的行为策略和目标策略是同一个策略, ...
【技术保护点】
1.一种样本池构建方法,包括:/n获取历史数据;/n根据历史数据生成多个真实样本;/n根据所述历史数据及预定仿真模型,生成多个仿真样本;以及/n将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间,构成所述混合样本池。/n
【技术特征摘要】
1.一种样本池构建方法,包括:
获取历史数据;
根据历史数据生成多个真实样本;
根据所述历史数据及预定仿真模型,生成多个仿真样本;以及
将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间,构成所述混合样本池。
2.根据权利要求1所述的方法,其中,所述生成多个所述仿真样本包括:
从所述历史数据中选取初始状态数据;以及
以所述初始状态数据作为第一状态数据,循环执行以下第一循环操作:
以所述第一状态数据作为强化学习算法的输入,得到针对所述第一状态数据的第一动作向量;
以所述第一状态数据及所述第一动作向量作为所述预定仿真模型的输入,得到第二状态数据;
根据所述第一状态数据、所述第一动作向量以及所述第二状态数据,生成一个所述仿真样本;以及
采用所述第二状态数据更新所述第一状态数据,
其中,第一状态数据为针对第一时刻的数据,所述第二状态数据为针对第二时刻的数据,所述第二时刻为所述第一时刻的下一时刻。
3.根据权利要求2所述的方法,其中:
所述仿真样本包括:所述第一状态数据、所述第二状态数据、所述第一动作向量以及针对所述仿真样本的奖励值;
所述第一循环操作还包括:根据所述第一动作向量以及所述第一状态数据,确定针对所述仿真样本的奖励值。
4.根据权利要求3所述的方法,其中,确定针对所述仿真样本的奖励值包括:
确定所述第一动作向量中每个元素在针对所述每个元素的取值空间中所属的取值区间;
根据所述每个元素针对所属的取值区间的概率与预定概率的大小关系,确定针对所述仿真样本的惩罚系数;以及
根据所述惩罚系数、所述第一状态数据及预定算法,计算得到针对所述仿真样本的奖励值。
5.根据权利要求4所述的方法,其中,确定针对所述仿真样本的惩罚系数包括:
根据所述每个元素针对所属的取值区间的概率与针对所述每个元素的预定概率的大小关系,确定针对所述每个元素的惩罚系数;以及
累加针对所述第一动作向量中所述每个元素的惩罚系数,得到针对所述仿真样本的惩罚系数,
其中,所述每个元素针对所属的取值区间的概率通过对所述多个真实样本包括的第二动作向量进行统计得到。
6.根据权利要求4所述的方法,其中,计算得到针对所述仿真样本的奖励值包括:
根据所述第一状态数据及第一算法,计算得到针对所述仿真样本的初始奖励值;
根据针对所述仿真样本的惩罚系数及第二算法,计算得到针对所述仿真样本的奖励调整参数;以及
将所述初始奖励值与所述奖励调整参数相除,得到针对所述仿真样本的奖励值,
其中,所述预定算法包括所述第一算法和所述第二算法。
7.根据权利要求4所述的方法,其中:
所述混合样本池中的仿真样本包括:惩罚系数大于预定值的负仿真样本;以及惩罚系数小于等于所述预定惩罚值的正仿真样本;
所述将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间,构成所述混合样本池包括:
根据所述第一预定比例、所述预定存储空间的存储容量及所述多个仿真样本的个数,确定需要存储至所述预定存储空间的仿真样本的个数;
从所述多个仿真样本中获取至少一个正仿真样本和惩罚系数满足第二预设条件的至少...
【专利技术属性】
技术研发人员:张玥,霍雨森,朱翔宇,徐浩然,邓欣,王小波,詹仙园,郑宇,李春洋,张钧波,
申请(专利权)人:京东城市北京数字科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。