【技术实现步骤摘要】
超参数确定方法、装置、深度强化学习框架、介质及设备
[0001]本公开涉及计算机领域,具体地,涉及一种超参数确定方法、装置、深度强化学习框架、介质及设备。
技术介绍
[0002]随机计算机技术的发展,各类大型模型、复杂的机器学习模型逐渐开始应用。在模型中需要通过大量的参数进行计算,从而使得该模型可以满足用户的需求。在模型中的部分参数可以通过模型的训练进行优化,例如神经网络模型中的权重,而部分参数不能够通过模型的训练进行优化,这类参数为模型的超参数,例如神经网络中的隐藏层的数量。超参数用于对模型的训练过程进行调节,通常是工作人员基于经验人为设置的,超参数并不直接参与到模型的训练过程,不会在模型的训练过程中进行更新。而超参数的设置对模型训练的迭代次数、收敛效率等具有较大影响。
技术实现思路
[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。r/>[0004]第本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种超参数确定方法,其特征在于,所述方法包括:获取在目标模型的目标超参数的采样取值下,与所述采样取值对应的采样样本;根据所述采样样本生成所述目标超参数对应的交互样本,所述交互样本中包含所述采样取值和所述目标模型对应的优化特征参数;根据所述交互样本,对所述目标超参数对应的状态价值进行更新,其中,所述目标超参数的参数空间被离散化为多个取值区域;根据更新后的所述目标超参数对应的状态价值,从所述多个取值区域中确定目标区域;根据所述目标区域确定所述目标超参数的目标取值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述目标取值作为新的采样取值,并重新执行所述获取在目标模型的目标超参数的采样取值下,与所述采样取值对应的采样样本的步骤至所述根据所述目标区域确定所述目标超参数的目标取值的步骤,直至所述目标模型训练完成。3.根据权利要求1所述的方法,其特征在于,所述根据所述交互样本,对所述目标超参数对应的状态价值进行更新,包括:根据所述采样取值,确定所述采样取值所属的取值区域;根据所述采样取值所属的取值区域确定待更新取值区域;根据所述优化特征参数,对所述待更新取值区域的状态价值进行更新。4.根据权利要求3所述的方法,其特征在于,所述根据所述采样取值所属的取值区域确定待更新取值区域,包括:将所述采样取值所属的取值区域和处于所述采样取值所属的取值区域相邻的预设范围内的取值区域确定为所述待更新取值区域;所述根据所述优化特征参数,对所述待更新取值区域的状态价值进行更新,包括:根据所述优化特征参数和各个所述待更新取值区域的状态价值,分别对每一所述待更新取值区域的状态价值进行更新。5.根据权利要求1所述的方法,其特征在于,所述根据更新后的所述目标超参数对应的状态价值,从所述多个取值区域中确定目标区域,包括:根据更新后的所述目标超参数对应的状态价值,确定每一所述取值区域的目标分数;根据每一所述取值区域的目标分数,从所述多个取值区域中确定目标区域。6.根据权利要求5所述的方法,其特征在于,所述根据更新后的所述目标超参数对应的状态价值,确定每一所述取值区域的目标分数,包括:在所述更新后的所述目标超参数对应的状态价值中,针对每一所述取值区域,将该取值区域的状态价值、和该取值区域相邻的预设范围内的取值区域的状态价值的平均值确定为该取值区域的价值分数;针对每...
【专利技术属性】
技术研发人员:范嘉骏,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。