【技术实现步骤摘要】
强化学习模型的训练方法、装置、电子设备以及介质
[0001]本公开涉及人工智能
,具体而言,涉及一种强化学习模型的训练方法、装置、电子设备以及介质。
技术介绍
[0002]强化学习模型由一个智能体(Agent)和可交互的环境(Environment)组成。在每个时间步(Timestep),智能体收到环境的状态,智能体根据其策略采取某个动作并与环境互动,得到相应的奖励信号和下一个时间步的环境状态。强化学习没有固定的、静态的数据集,训练数据由智能体产生,并用于优化智能体自身。在对强化学习模型进行训练时,通常在经验回放池随机采样一组数据对该强化学习模型进行训练。在采样到的数据质量较差的情况下,将影响该强化学习模型的训练精度。
技术实现思路
[0003]本公开实施例至少提供一种强化学习模型的训练方法、装置、电子设备以及介质。
[0004]第一方面,本公开实施例提供了一种强化学习模型的训练方法,包括:获取待训练的强化学习模型;确定样本数据库中各训练样本的样本筛选参数;其中,所述样本筛选参数用于表征训练样本 ...
【技术保护点】
【技术特征摘要】
1.一种强化学习模型的训练方法,其特征在于,包括:获取待训练的强化学习模型;确定样本数据库中各训练样本的样本筛选参数;其中,所述样本筛选参数用于表征训练样本与所述待训练的强化学习模型的训练匹配度,所述训练样本由所述待训练的强化学习模型在历史迭代训练阶段生成;基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本;基于所述目标训练样本对所述待训练的强化学习模型执行当前迭代阶段的迭代训练任务,得到目标强化学习模型。2.根据权利要求1所述的方法,其特征在于,所述样本筛选参数的数量为至少两个;所述基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,包括:基于所述样本筛选参数的参数类型确定所述样本筛选参数的筛选顺序;按照所述样本筛选参数的筛选顺序在所述样本数据库中筛选满足训练匹配度要求的目标训练样本。3.根据权利要求1或2所述的方法,其特征在于,所述样本筛选参数包括以下至少之一:样本陈旧度、样本优先级和样本采样次数;其中,所述样本陈旧度用于表征训练样本产生时强化学习模型的迭代训练阶段和所述当前迭代阶段的迭代差距,所述样本优先级用于表征训练样本的预测值和该训练样本的样本真值之间的误差,所述样本采样次数用于表征训练样本用于执行迭代训练任务的次数。4.根据权利要求3所述的方法,其特征在于,所述基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本,包括:通过所述样本陈旧度在所述样本数据库中筛选满足迭代差距要求的第一初始训练样本;通过所述样本优先级在所述第一初始训练样本中筛选满足优先级要求的第二初始训练样本;通过所述样本采样次数在所述第二初始训练样本中筛选满足采样次数要求的第三初始训练样本,并基于所述第三初始训练样本确定所述目标训练样本。5.根据权利要求4所述的方法,其特征在于,所述通过所述样本优先级在所述第一初始训练样本中筛选满足优先级要求的第二初始训练样本,包括:获取待搜索的二叉搜索树;其中,所述二叉搜索树中一个叶子节点的数值用于表征一个样本优先级,所述二叉搜索树中父节点的数值为该父节点的子节点的数值之和,所述二叉搜索树中的每个节点包含对应的样本区间,所述样本区间用于指示样本优先级为该节点所对应数值的训练样本的样本标识;在所述二叉搜索树中搜索满足优先级要求的样本优先级,并确定所述满足优先级要求的样本优先级所在节点对应的目标样本区间;在所述第一初始训练样本中筛选包含在所述目标样本区间的训练样本,得到所述第二初始训练样本。6.根据权利要求1至5任一项所述的方法,其特征在于,所述样本筛选参数包括样本优先级,所述方法还包括:
在基于所述样本筛选参数在样本数据库中筛选满足训练匹配度要求的目标训练样本之后,基于所述样本优先级确定所述样本数据库中对应目标训练样本的采样概率;基于所述采样概率计算该目标训练样本的采样权重;基于所述采样权重更新该目标训练样本的样本优先级,得到该目标训练样本更新之后的样本优先级。7.根据权利要求6所述的方法,其特征在于,所述基于所述采样概率计算该目标训练样本的采样权...
【专利技术属性】
技术研发人员:牛雅哲,赵梁煊,刘宇,王晓刚,
申请(专利权)人:深圳市商汤科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。