基于无知识蒸馏的模型生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38058759 阅读:8 留言:0更新日期:2023-06-30 11:25
本发明专利技术涉及人工智能技术领域,尤其涉及一种基于无知识蒸馏的模型生成方法、装置、设备及存储介质,通过使用预设的图像生成器,生成M个样本图像,将M个样本图像输入第一模型与第二模型中获取第一特征矩阵与第二特征矩阵,通过预设核函数,对第二特征矩阵进行特征解耦,得到多特征第二特征矩阵,计算得到多特征第二特征矩阵中每一行的样本权重,根据样本权重,构建目标损失函数,对第二模型进行训练,生成目标模型,解决了数据样本较少的问题,根据每一样本图像中的样本权重,以及第一模型与第二模型输出特征的差异性构建第二模型对应的损失函数,计算样本权重,避免了生成的样本图像特征分布不均的问题,提高了生成的模型在应用时的的准确率。时的的准确率。时的的准确率。

【技术实现步骤摘要】
基于无知识蒸馏的模型生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于无知识蒸馏的模型生成方法、装置、设备及存储介质。

技术介绍

[0002]知识蒸馏作为一种模型压缩方法,目前被广泛使用。知识蒸馏将待压缩的模型看作是“教师”,压缩完的模型看作是“学生”。教师网络能力强,但是结构复杂,不方便部署;学生网络结构简单,但是直接训练得到的效果并不好。知识蒸馏就是通过教师网络辅助学生网络训练的方式,提高学生网络在应用时的性能,达到和教师网络接近的效果。
[0003]在进行模型压缩时,如果能够直接访问训练数据,现有的大多数深度神经网络压缩和加速方法都是非常有效的。但是如果由于隐私或者法律原因,训练数据不可访问时,大多数的模型压缩方法都会失效,在持续型学习的场景中,可以训练生成模型作为旧知识的假数据的生成器,将假数据与在新的数据混合后再进行对学生网络的训练。由于生成的假数据分布偏移,使训练生成的学生网络在应用时准确率较低因此,在由于数据隐私性较强,样本数据较少时,如何提高学生模型在应用过程中的准确率成为亟待解决的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种基于无知识蒸馏的模型生成方法、装置、设备及存储介质,以解决模型在应用时准确率较低的问题。
[0005]本申请实施例的第一方面提供了一种基于无知识蒸馏的模型生成方法,所述方法包括:
[0006]使用预设的图像生成器,生成M个样本图像,M为大于1的整数;
[0007]将所述M个样本图像输入至第一模型,获取每个样本图像中每个特征的第一特征张量,每个样本图像中所有特征的第一特征张量构成对应样本图像的第一特征矩阵;
[0008]将所述M个样本图像输入至第二模型,获取每个样本图像中每个特征的第二特征张量,每个样本图像中所有特征的第二特征张量构成对应样本图像的第二特征矩阵;
[0009]通过预设核函数,对所述第二特征矩阵进行特征解耦,得到多特征第二特征矩阵;
[0010]根据所述多特征第二特征矩阵中每一列特征之间的关联性函数,计算得到所述多特征第二特征矩阵中每一行的样本权重;
[0011]根据所述样本权重,以及所述第一特征矩阵与所述第二特征矩阵的差异表达式,构建目标损失函数;
[0012]根据所述目标损失函数,对所述第二模型进行训练,得到目标参数;
[0013]使用所述目标参数更新所述第二模型中的初始参数,生成目标模型。
[0014]本申请实施例的第二方面提供了一种基于无知识蒸馏的模型生成装置,所述装置包括:
[0015]生成模块,用于使用预设的图像生成器,生成M个样本图像,M为大于1的整数;
[0016]第一特征矩阵确定模块,用于将所述M个样本图像输入至第一模型,获取每个样本图像中每个特征的第一特征张量,每个样本图像中所有特征的第一特征张量构成对应样本图像的第一特征矩阵;
[0017]第二特征矩阵确定模块,用于将所述M个样本图像输入至第二模型,获取每个样本图像中每个特征的第二特征张量,每个样本图像中所有特征的第二特征张量构成对应样本图像的第二特征矩阵;
[0018]多特征第二特征矩阵确定模块,用于通过预设核函数,对所述第二特征矩阵进行特征解耦,得到多特征第二特征矩阵;
[0019]样本权重确定模块,用于根据所述多特征第二特征矩阵中每一列特征之间的关联性函数,计算得到所述多特征第二特征矩阵中每一行的样本权重;
[0020]目标损失函数构建模块,用于根据所述样本权重,以及所述第一特征矩阵与所述第二特征矩阵的差异表达式,构建目标损失函数;
[0021]目标参数确定模块,用于根据所述目标损失函数,对所述第二模型进行训练,得到目标参数;
[0022]目标模型获取模块,用于使用所述目标参数更新所述第二模型中的初始参数,生成目标模型。
[0023]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于无知识蒸馏的模型生成方法。
[0024]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于无知识蒸馏的模型生成方法。
[0025]本专利技术与现有技术相比存在的有益效果是:
[0026]使用预设的图像生成器,生成M个样本图像,将M个样本图像输入第一模型,输出每个样本图像中每个特征的第一特征张量,每个样本图像中所有特征的第一特征张量构成对应样本图像的第一特征矩阵,M为大于1的整数,将M个样本图像输入第二模型,输出每个样本图像中每个特征的第二特征张量,每个样本图像中所有特征的第二特征张量构成对应样本图像的第二特征矩阵,通过预设核函数,对第二特征矩阵进行特征解耦,得到多特征第二特征矩阵,并根据多特征第二特征矩阵中每一列特征之间的关联性函数,计算得到多特征第二特征矩阵中每一行的样本权重,根据样本权重,以及通过预设算法计算得到的第一特征矩阵和第二特征矩阵的差异表达式,构建目标损失函数,根据第目标损失函数,对第二模型进行训练,调整第二模型中的初始参数,生成目标模型,解决了数据样本较少的问题,根据每一样本图像中的样本权重,以及第一模型与第二模型输出特征的差异性构建第二模型对应的损失函数,计算样本权重,避免了生成的样本图像特征分布不均的问题,提高了生成的模型在应用时的准确率。
附图说明
[0027]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施
例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]图1是本专利技术一实施例提供的一种基于无知识蒸馏的模型生成方法的一应用环境示意图;
[0029]图2是本专利技术一实施例提供的一种基于无知识蒸馏的模型生成方法的流程示意图;
[0030]图3是本专利技术一实施例提供的一种基于无知识蒸馏的模型生成方法的流程示意图;
[0031]图4是本专利技术一实施例提供的一种基于无知识蒸馏的模型生成装置的结构示意图;
[0032]图5是本专利技术一实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无知识蒸馏的模型生成方法,其特征在于,所述生成方法包括:使用预设的图像生成器,生成M个样本图像,M为大于1的整数;将所述M个样本图像输入至第一模型,获取每个样本图像中每个特征的第一特征张量,每个样本图像中所有特征的第一特征张量构成对应样本图像的第一特征矩阵;将所述M个样本图像输入至第二模型,获取每个样本图像中每个特征的第二特征张量,每个样本图像中所有特征的第二特征张量构成对应样本图像的第二特征矩阵;通过预设核函数,对所述第二特征矩阵进行特征解耦,得到多特征第二特征矩阵;根据所述多特征第二特征矩阵中每一列特征之间的关联性函数,计算得到所述多特征第二特征矩阵中每一行的样本权重;根据所述样本权重,以及所述第一特征矩阵与所述第二特征矩阵的差异表达式,构建目标损失函数;根据所述目标损失函数,对所述第二模型进行训练,得到目标参数;使用所述目标参数更新所述第二模型中的初始参数,生成目标模型。2.如权利要求1所述的基于无知识蒸馏的模型生成方法,其特征在于,所述使用预设的图像生成器,生成M个样本图像之前,还包括:获取第一模型;使用所述第一模型判别预设图像生成器生成的随机图像与真实图像的相似性;通过预先构建的对抗损失函数,训练初始图像生成器,得到所述训练好的图像生成器,将所述训练好的图像生成器作为预设图像生成器。3.如权利要求2所述的基于无知识蒸馏的模型生成方法,其特征在于,所述通过预先构建的对抗损失函数,训练初始图像生成器,得到所述训练好的图像生成器,包括:获取预设的交叉熵损失函数、信息熵损失函数与正则损失函数,构建对抗损失函数;使用所述第一模型判别所述预设图像生成器基于预设随机信号生成的随机图像与真实图像的相似性,通过所述对抗损失函数训练所述初始图像生成器,得到所述训练好的图像生成器。4.如权利要求3所述的基于无知识蒸馏的模型生成方法,其特征在于,所述获取预设的交叉熵损失函数、信息熵损失函数与正则损失函数,构建对抗损失函数,包括:获取所述预设的交叉熵损失函数、所述信息熵损失函数与所述正则损失函数的占比系数;根据所述占比系数,以及所述预设的交叉熵损失函数、所述信息熵损失函数与所述正则损失函数,构建对抗损失函数。5.如权利要求1所述的基于无知识蒸馏的模型生成方法,其特征在于,所述根据所述多特征第二特征矩阵中每一列特征之间的关联性函数,计算得到所述多特征第二特征矩阵中每一行的样本权重,包括:基于所述多特征第二特征矩阵中每一列特征之间的关联性关系,构建关联性函数;取所述关...

【专利技术属性】
技术研发人员:瞿晓阳王健宗陈劲钢
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1