The embodiment of this specification provides a method and device for training a deep reinforcement learning model, in which the deep reinforcement learning model is used to map the state of the environment to action according to the strategy. The methods mentioned above include: acquiring historical samples, including a sequence consisting of the first state, the first action, the reward score and the second state; then acquiring the second action determined by the current strategy of the deep reinforcement learning model for the first state mentioned above. Next, compare whether the second action is the same as the first one. In the same case, the historical samples are identified as the same strategy samples, which are used to train the deep reinforcement learning model using the same strategy algorithm.
【技术实现步骤摘要】
训练深度强化学习模型的方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及训练深度强化学习模型的方法及装置。
技术介绍
机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。相较于机器学习经典的有监督学习、无监督学习,近来发展的强化学习最大的特点和优势,是通过跟环境的不断交互、互相影响来进行策略调整,根据获得的奖励或惩罚不断的自我学习,更加适应环境。目前常见的深度强化学习算法(如DeepMind以及OpenAI实现的算法)主要针对游戏模拟器。在游戏的场景,强化学习的训练很容易做到跟环境交互(智能体直接操作游戏)。但在许多业务场景中这是很难做到的,比如推荐场景,模型训练一般是离线进行,样本收集回来的时候效果是既定的,模型已经无法影响环境。而让模型直接上线影响环境,成本代价和可控性又难以保证。因此,希望能有改进的方案,更加高效地对深度强化学习模型进行训练。
技术实现思路
本说明书一个或多个实施例描述了一种训练深度强化学习模型的方法和装置,能够利用历史样本,进行同策略算法的模型训练,从而提高模型训练效率。根据第一方面,提供了一种训练深度强化学习模型 ...
【技术保护点】
1.一种训练深度强化学习模型的方法,所述深度强化学习模型用于根据策略,将环境的状态映射为动作,所述方法包括:获取历史样本,所述历史样本包括由第一状态,第一动作,奖励分数和第二状态构成的序列,其中所述第二状态是在环境处于第一状态的情况下,施加所述第一动作后,所述环境迁移到的状态;获取所述深度强化学习模型的当前策略针对所述第一状态确定出的第二动作;判断所述第二动作与所述第一动作是否相等,在两者相等的情况下,将所述历史样本确定为同策略样本,用于采用同策略算法训练所述深度强化学习模型。
【技术特征摘要】
1.一种训练深度强化学习模型的方法,所述深度强化学习模型用于根据策略,将环境的状态映射为动作,所述方法包括:获取历史样本,所述历史样本包括由第一状态,第一动作,奖励分数和第二状态构成的序列,其中所述第二状态是在环境处于第一状态的情况下,施加所述第一动作后,所述环境迁移到的状态;获取所述深度强化学习模型的当前策略针对所述第一状态确定出的第二动作;判断所述第二动作与所述第一动作是否相等,在两者相等的情况下,将所述历史样本确定为同策略样本,用于采用同策略算法训练所述深度强化学习模型。2.根据权利要求1所述的方法,其中获取历史样本包括:从历史样本池中提取所述历史样本。3.根据权利要求1所述的方法,其中获取历史样本包括:向样本管理模块发送样本请求;从样本管理模块接收所述历史样本,其中所述样本管理模块用于管理历史样本池中的样本。4.根据权利要求3所述的方法,其中所述历史样本是所述样本管理模块根据各个样本的读取权重而选择出的样本。5.根据权利要求4所述的方法,其中在将所述历史样本作为同策略样本之后,还包括,向所述样本管理模块发送权重更新请求,所述权重更新请求用于请求降低所述历史样本的读取权重。6.根据权利要求1所述的方法,其中获取所述深度强化学习模型的当前策略针对所述第一状态确定出的第二动作包括:向所述深度强化学习模型的训练平台发送所述第一状态;从所述训练平台接收所述第二动作。7.根据权利要求1所述的方法,其中获取所述深度强化学习模型的当前策略针对所述第一状态确定出的第二动作包括:从所述深度强化学习模型的训练平台获取所述当前策略;根据所述当前策略,确定针对所述第一状态的第二动作。8.根据权利要求1所述的方法,其中在将所述历史样本确定为同策略样本之后,还包括,将所述历史样本发送到所述深度强化学习模型的训练平台。9.根据权利要求1所述的方法,还包括,在判断出所述第二动作与所述第一动作不相等的情况下,获取下一历史样本。10.一种训练深度强化学习模型的装置,所述深度强化学习模型用于根据策略,将环境的状态映射为动作,所述装置包括:样本获取单元,配置为获取历...
【专利技术属性】
技术研发人员:何建杉,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。