【技术实现步骤摘要】
一种模型训练方法、电子设备、存储介质及程序产品
[0001]本申请涉及计算机
,特别是涉及一种模型训练方法、电子设备、存储介质及程序产品。
技术介绍
[0002]近年来,神经网络模型的使用越来越广泛。使用参数量巨大的神经网络模型,会带来庞大的计算量,导致巨大的功耗及延迟。但使用参数量较小的神经网络模型,会因为模型参数量过小导致模型训练时难以收敛,或者训练好的神经网络模型性能损失巨大。
[0003]因此,如何在保证神经网络模型的性能的前提下,有效降低神经网络模型的参数量,是一个巨大的挑战。
技术实现思路
[0004]鉴于上述问题,本专利技术实施例提供了一种模型训练方法、电子设备、存储介质及程序产品,以便克服上述问题或者至少部分地解决上述问题。
[0005]本专利技术实施例的第一方面,提供了一种模型训练方法,所述方法包括:
[0006]从基模型中确定出至少一个卷积分支;
[0007]针对每个卷积分支,将多个重参数分支分别与该卷积分支并联,得到目标模型,其中,所述多个重参数分支 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:从基模型中确定出至少一个卷积分支;针对每个卷积分支,将多个重参数分支分别与该卷积分支并联,得到目标模型,其中,所述多个重参数分支分别用于执行不同卷积核权重的卷积操作;以样本图像集为训练样本,对所述目标模型进行训练,得到用于进行图像分类或图像识别的待压缩模型,其中,所述样本图像集中的样本图像携带表征所述样本图像包含的对象的类别和/或位置的标签;将所述待压缩模型中所述多个重参数分支与所述卷积分支融合,得到用于进行图像分类或图像识别的压缩后模型。2.根据权利要求1所述的方法,其特征在于,每个重参数分支至少包括:该重参数分支的掩码矩阵模块、该重参数分支的权重模块、激活模块、点乘模块;所述激活模块连接在所述掩码矩阵模块的输出端,用于对所述掩码矩阵模块输出的掩码矩阵进行激活,以输出激活后的掩码矩阵;所述点乘模块连接在所述激活模块的输出端,且连接在所述权重模块的输出端,用于对所述激活后的掩码矩阵与所述权重模块输出的权重矩阵进行点乘,得到该重参数分支的卷积核权重。3.根据权利要求1所述的方法,其特征在于,针对每个卷积分支,将多个重参数分支分别与该卷积分支并联,得到目标模型,包括:除将多个重参数分支分别与该卷积分支并联之外,还将一个或多个1
×
1卷积模块与该卷积分支并联,得到所述目标模型。4.根据权利要求1所述的方法,其特征在于,针对每个卷积分支,将多个重参数分支分别与该卷积分支并联,得到目标模型,包括:将所述多个重参数分支中的至少一个重参数分支与一个或多个1
×
1卷积模块串联;将串联有一个或多个1
×
1卷积模块的重参数分支以及剩余的重参数分支分别与该卷积分支并联,得到所述目标模型。5.根据权利要求1所述的方法,其特征在于,针对每个卷积分支,将多个重参数分支分别与该卷...
【专利技术属性】
技术研发人员:王萱,李帅,
申请(专利权)人:北京迈格威科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。