多任务深度模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29792003 阅读:27 留言:0更新日期:2021-08-24 18:11
本申请实施例公开了一种多任务深度模型的训练方法、装置、电子设备及存储介质,该方法包括:按照抽样比例对训练样本进行抽样;根据抽样样本对初始的多任务深度模型进行预训练,记录多任务深度模型中每个子任务网络过拟合的训练步数;根据训练步数,对多任务深度模型中的子任务网络的独立层进行调整;根据训练样本对多任务深度模型进行训练,在一个子任务网络过拟合时,结束对该子任务网络的训练,并保存当前多任务深度模型,直至多任务深度模型的所有子任务网络训练结束;根据测试数据集对保存的多个多任务深度模型进行测试,将满足目标条件的多任务深度模型确定为最终的多任务深度模型。本申请实施例可以在子任务学习同步的基础上提高训练效率。

【技术实现步骤摘要】
多任务深度模型的训练方法、装置、电子设备及存储介质
本申请实施例及机器学习
,特别是涉及一种多任务深度模型的训练方法、装置、电子设备及存储介质。
技术介绍
近年来,基于神经网络的深度学习技术兴起,得到了广泛应用,取得了很好的效果。深度神经网络模型通常结构复杂,参数众多,学习能力强。同时,深度模型对训练数据量的要求很高,有标签数据不足时,深度模型很容易过拟合。为了防止深度模型过拟合,可以在模型中加入Dropout层和BatchNormalization层,以及在损失函数中加入正则化项(Regularization)等。多任务深度模型是指同时令模型学习多个相关的子任务,例如搜索排序场景下的点击率预测任务和转化率预测任务,这些子任务一般能共享特征,共享模型学习到的很多底层信息,也能共享具有多个标签的训练样本(一件商品同时标记了用户是否点击和用户是否购买)。使用多任务学习可以提高训练效率,提高训练样本的使用效率,也有可能借助学习到的多个子任务间的相关信息,相比独立训练在子任务上取得更好的训练效果。在多任务深度模型训练过程中会存在子本文档来自技高网...

【技术保护点】
1.一种多任务深度模型的训练方法,包括:/n按照抽样比例对训练样本进行抽样,得到抽样样本;/n根据所述抽样样本,对初始的多任务深度模型进行预训练,记录所述多任务深度模型中每个子任务网络过拟合的训练步数;/n根据每个子任务网络过拟合的训练步数,对所述多任务深度模型中的子任务网络的独立层进行调整;/n根据所述训练样本,对调整后的多任务深度模型进行训练,在一个子任务网络过拟合时,结束对该子任务网络的训练,并保存当前的多任务深度模型,直至所述多任务深度模型的所有子任务网络训练结束;/n根据测试数据集,对保存的多个多任务深度模型进行测试,将满足目标条件的多任务深度模型确定为最终的多任务深度模型。/n

【技术特征摘要】
1.一种多任务深度模型的训练方法,包括:
按照抽样比例对训练样本进行抽样,得到抽样样本;
根据所述抽样样本,对初始的多任务深度模型进行预训练,记录所述多任务深度模型中每个子任务网络过拟合的训练步数;
根据每个子任务网络过拟合的训练步数,对所述多任务深度模型中的子任务网络的独立层进行调整;
根据所述训练样本,对调整后的多任务深度模型进行训练,在一个子任务网络过拟合时,结束对该子任务网络的训练,并保存当前的多任务深度模型,直至所述多任务深度模型的所有子任务网络训练结束;
根据测试数据集,对保存的多个多任务深度模型进行测试,将满足目标条件的多任务深度模型确定为最终的多任务深度模型。


2.根据权利要求1所述的方法,所述根据每个子任务网络过拟合的训练步数,对所述多任务深度模型中的子任务网络的独立层进行调整,包括:
响应于最大训练步数与最小训练步数之差大于过拟合步数差值阈值,对所述多任务深度模型中的子任务网络的独立层进行调整;
循环执行对调整后的多任务深度模型进行预训练和对子任务网络的独立层进行调整的操作,直至最大训练步数与最小训练步数之差小于或等于所述过拟合步数差值阈值或者最早过拟合的子任务网络的独立层层数为0。


3.根据权利要求2所述的方法,所述对所述多任务深度模型中的子任务网络的独立层进行调整,包括:
响应于最早过拟合的子任务网络的独立层层数大于0,将最早过拟合的子任务网络的预设层数的独立层转移至最后过拟合的子任务网络中。


4.根据权利要求2所述的方法,在对所述多任务深度模型中的子任务网络的独立层进行调整之前,还包括:
响应于所述多任务深度模型的子任务网络包括丢弃层,且最早过拟合的子任务网络的当前丢弃比例小于丢弃比例阈值,将所述当前丢弃比例增加预设比例幅度。


5.根据权利要求1所述的方法,在预训练时间阈值内,根据所述抽样样本,对初始的多任务深度模型进行预训练,记录所述多任务深度模型中每个子任务网络过拟合的训练步数,包括:
根据所述抽样样本,对初始的多任务深度模型进行预训练;
响应于在预训练时间阈值内,所述多任务深度模型中每个子任务网络均过拟合,记录每个子任务网络过拟合的训练步数;
响应于预训练时间达到预训练时间阈值,所述多任务深度模型中存在子任务网络未过拟合,降低抽样比例后重新对训练样本进行抽样,并根据重新抽样得到的抽样样本对多任务深度模型进行预训练,直至在预训练时间阈值内每个子任务网络均过拟合或者抽样比例降低后的抽样样本数量小于子任务最小样本数量;
响应于抽样比例降低后的抽样样本数量小于所述子任务最小样本数量,从未过拟合的子任务网络...

【专利技术属性】
技术研发人员:温皓星易根良石晓巍王洪雨李玉国翟艺涛郑刚
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1