一种模型的训练方法、装置、设备及其存储介质制造方法及图纸

技术编号:33505846 阅读:28 留言:0更新日期:2022-05-19 01:15
本申请实施例提供了一种模型的训练方法、装置、设备及其存储介质。通过确定规模较小的第一模型在隐含层所产生的第一模型特征向量,以及确定规模较大的第二模型在隐含层所产生的第二模型特征向量,从而将第一模型特征向量和第二模型特征向量映射到相同维度的向量空间,将第二模型特征向量划分为第一子特征向量和第二子特征向量,并使用第一损失值来表征第一子特征向量用于继承第一模型学习到的知识,以及使用第二损失值来表征第二子特征向量探索第一模型没有学到的知识,进而基于第一损失值和第二损失值来训练第二模型。值和第二损失值来训练第二模型。值和第二损失值来训练第二模型。

【技术实现步骤摘要】
一种模型的训练方法、装置、设备及其存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种模型的训练方法、装置、设备及其存储介质。

技术介绍

[0002]随着深度学习的发展,各种神经网络模型被广泛应用于各种领域,如图像检测、文本识别、语音处理等等。目前,从规模上,神经网络模型可以被分为大模型(也称复杂模型)和小模型(也称简单模型)。其中,相较于小模型,大模型的结构更为复杂、涉及的中间层也更多。在模型训练的过程中,大模型虽然表达能力强,但是由于其模型复杂度较高,采用的参数较多,特征的维度也较多,因此,训练的速度和迭代速度也慢。而小模型则训练快,迭代速度也快。
[0003]因此,如何将两种模型的优势相结合,实现模型的高效训练,成为亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种模型的训练方法、装置及存储介质,以至少部分解决上述问题。
[0005]本申请实施例的第一方面,提供一种模型的训练方法,所述方法包括:
[0006]获取第一模型通过隐含层对输入样本进行处理后输出的第一模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型的训练方法,所述方法包括:获取第一模型通过隐含层对输入样本进行处理后输出的第一模型特征向量,以及,第二模型通过隐含层对所述输入样本进行处理后输出的第二模型特征向量,其中,所述第一模型的规模小于所述第二模型,所述第二模型特征向量包括第一子特征向量和第二子特征向量;分别将所述第一模型特征向量、所述第一子特征向量和第二子特征向量转换为预设维度的第一中间向量、第二中间向量和第三中间向量;根据所述第一中间向量和所述第二中间向量,获得第一损失值;并且,根据所述第一中间向量和所述第三中间向量,获得第二损失值;至少根据所述第一损失值和所述第二损失值,对所述第二模型进行训练。2.如权利要求1所述的方法,其中,将所述第一模型特征向量转换为预设维度的第一中间向量,包括:将初始的第一模型特征向量映射至指定维度的向量空间,生成指定维度的待确定的中间向量;根据所述待确定的中间向量重新生成重构的第一模型特征向量;当所述重构的第一模型特征向量和所述初始的第一模型特征向量的差异满足预设条件时,确定所述中间向量为第一中间向量。3.如权利要求2所述的方法,其中,所述重构的第一模型特征向量和所述初始的第一模型特征向量的差异满足预设条件,包括:所述重构的第一模型特征向量和所述初始的第一模型特征向量的距离小于距离预设值,或者夹角小于夹角预设值。4.如权利要求2所述的方法,其中,根据所述第一中间向量和所述第二中间向量,获得第一损失值,包括:将所述第一中间向量和所述第二中间向量分别进行归一化,得到归一化的第一中间向量和归一化的第二中间向量;将所述归一化的第一中间向量和归一化的第二中间向量的距离确定为第一损失值。5.如权利要求2所述的方法,其中,根据所述第一中间向量和所述第三中间向量,获得第二损失值,包括:将所述第一中间向量和所述第三中间向量分别进行归一化,得到归一化的第一中间向量和归一化的第三中间向量;将所述归一化的第一中间向量和归一化的第三中间向量的距离的相反数确定为第二损失值。6.如权利要求1所述的方法,其中,至少根据所述第一损失值和所述第二损失值,对所述第二模型进行训练,包括:确定所述第二模型对于所述输入样本的基本损失值;根据所述基本损失值、所述第一损失值和所述第二损失值的和对所述第二模型进行训练。7.如权利要求6所述的方法,其中,对所述第二模型进行训练,包括:在对所述第二模型进行训练时,对所述第一模型进行同步训练。
8.一种图像分类方法,包括:确定用于对待分类的目标图像进行图像分类的图像分类模型,其中,所述图像分类模型包括输入层、隐含层和输出层;通过所述图像分类模型的输入层接收所述目标图像的图像数据向量;通过所述图像分类模型的隐含层根据所述图像数据向量进行图像特征提取,获得对应的图像特征,其中,所述隐含层的模型参数通过所述图像分类模型和辅助训练模型的联合训练获得,所述辅助训练模型的规模小于所述图像分类模型,所述联合训练包括:获取辅助训练模型通过隐含层对输入样本进行处理后输出的第一模型特征向量,以及,图像分类模型通过所述隐含层对所述输入样本进行处理后输出的第二模型特征向量,其中,所述第二模型特征向量包括第一子特征向量和第二子特征向量;分别将所述第一模型特征向量、所述第一子特征向量和第二子特征向量转换为预设维度的第一中间向量、第二中间向量和第三中间向量;根据所述第一中间向量和所述第二中间向量,获得第一损失值;并且,根据所述第一中间向量和所述第三中间向量,获得第二损失值;至少根据所述第一损失值和所述第二损失值,对所述图像分类模型进行训练,根据训练结果确定所述图像分类模型隐含层的模型参数;通过所述图像分类模型的输出层输出与所述图像特征对应的图像类别数据,所述图像类别数据用于指示所述目标图...

【专利技术属性】
技术研发人员:沈旭黄镇黄建强
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1