一种神经网络模型的训练方法、电子设备及存储介质技术

技术编号:17913320 阅读:39 留言:0更新日期:2018-05-10 18:48
本发明专利技术公开了一种神经网络模型的训练方法,包括:获取第一图像特征和第二图像特征;第一图像特征为图片A经过已经训练完成的模型所输出的图像特征,第二图像特征为图片A经过待训练模型所输出的图像特征;获取分类概率;分类概率为第二图像特征经过待训练模型的分类层所输出的分类概率;根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数直到第二图像特征与所述第一图像特征相拟合。本发明专利技术还公开了一种电子设备及存储介质,本发明专利技术提供的神经网络模型的训练方法、电子设备及存储介质根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数,训练得到一个与已经训练完成的大模型精度相当的小模型,保证了计算速度和计算精度。

【技术实现步骤摘要】
一种神经网络模型的训练方法、电子设备及存储介质
本专利技术涉及模型训练领域,尤其涉及一种神经网络模型的训练方法、电子设备及存储介质。
技术介绍
卷积神经网络包含多个卷积层、激活函数层及下采样层等,其局部采样和权重共享的特性使得可以得到平移不变特征,提取的特征远超传统手工设计的特征,大幅提高了识别、检测、分割等机器视觉任务的精度,同时相比于传统神经网络参数更少,易于训练。随着技术发展,卷积神经网络的趋势是模型深度越深、精度越高,精度的提升使得很多视觉任务可以走向实用,同时也带来了巨大的计算量,模型越深需要的计算量就越大,部署时需大量硬件设备,成本高昂,同时在一些实时性要求高的应用上也不能满足需求。为了节省成本,提高设备效率,针对CNN模型目前已有一些模型压缩的方法,比如模型剪枝、模型量化、权重共享等。模型剪枝是指训练好一个模型后,统计其各层参数的值,将绝对值小于阈值的参数去掉,从而达到减少参数,减少模型大小,加快计算速度的目的;模型量化是指将训练好的模型中的参数量化到低位表示,降低参数精度,减少硬件计算耗时;权重共享是指将模型中的参数聚类,使用聚类中心代替相近的参数。这几类方法是基本思路都是去除一部分模型参数,或者将参数降低精度来达到加速的效果,虽然可以在一定程度上加快计算速度,但是在一个已有的大模型基础上减少参数个数,或利用硬件特性计算低比特的数据,这是量变而非质变的方法,压缩之后的精度和速度都受到影响。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种神经网络模型的训练方法,以解决现有模型压缩技术影响计算速度和计算精度的问题。本专利技术的目的之二在于提供一种电子设备,以解决现有模型压缩技术影响计算速度和计算精度的问题。本专利技术的目的之一采用如下技术方案实现:一种神经网络模型的训练方法,包括:获取第一图像特征和第二图像特征;其中,所述第一图像特征为图片A经过已经训练完成的模型所输出的图像特征,所述第二图像特征为图片A经过待训练模型所输出的图像特征;获取分类概率;其中,所述分类概率为所述第二图像特征经过所述待训练模型的分类层所输出的分类概率;根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合。进一步地,所述获取分类概率之前还包括:将所述待训练模型的分类层的参数替换为所述已经训练完成的模型的分类层的参数。进一步地,所述根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合包括:根据所述第一图像特征和所述第二图像特征计算第一损失函数;根据所述分类概率计算第二损失函数;根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数。进一步地,所述根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数包括:根据所述第一损失函数和所述第二损失函数,利用链式法则和随机梯度下降算法更新所述待训练模型的参数。进一步地,所述根据所述第一图像特征和所述第二图像特征计算第一损失函数包括:根据公式计算第一损失函数,其中,L1为第一损失函数,X1i为第一图像特征,X2i为第二图像特征,i=1......n,n为第二图像特征的数量。进一步地,所述根据所述分类概率计算第二损失函数包括:根据公式L2=-log(σj(z))计算第二损失函数,其中,L2为第二损失函数,σj(z)为每个分类的分类概率;且其中,zj为每种分类的预测值,j=1......m,m为所有分类的总数。进一步地,所述待训练模型的特征对比层的维度与所述已经训练完成的模型的特征对比层的维度相同。进一步地,所述待训练模型的特征对比层的维度为64维。本专利技术的目的之二采用如下技术方案实现:一种电子设备,包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述的方法。本专利技术还涉及一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述的方法。相比现有技术,本专利技术的有益效果在于:将相同的图片A分别经过已经训练完成的模型和待训练的模型得到第一图像特征和第二图像特征,将第二图像特征继续经过待训练的模型得到分类概率;根据第一图像特征、第二图像特征及分类概率更新待训练模型的参数直到第二图像特征与第一图像特征相拟合,从而训练得到一个与已经训练完成的大模型精度相当的小模型,保证了计算速度和计算精度。附图说明图1为本专利技术实施例一提供的神经网络模型的训练方法的流程图;图2为本专利技术实施例一提供的神经网络模型的结构;图3为本专利技术实施例二提供的神经网络模型的训练方法的流程图;图4为本专利技术实施例提供的电子设备的示意图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。如图1所示,本专利技术实施例一提供的神经网络模型的训练方法,包括:步骤S101:获取第一图像特征和第二图像特征;其中,所述第一图像特征为图片A经过已经训练完成的模型所输出的图像特征,所述第二图像特征为图片A经过待训练模型所输出的图像特征。具体的,如图2所示,已经训练完成的模型基于卷积神经网络,模型的结构包括主干网络、特征对比层和分类层,其中,主干网络包括多个卷积层和多个池化层,主干网络用于提取图片的主要特征,特征对比层用于对主干网络提取的图片的主要特征进行线性变换,分类层用于根据经过线性变换的图像特征计算出预测类别的概率。训练的过程为:将样本图片和标注依次经过主干网络、特征对比层和分类层,设定损失函数计算模型的输出与预测结果的相似度,根据损失函数的值反向传播梯度,使用梯度下降算法优化模型参数,反复迭代,直至输出结果的准确率不再上升,模型即训练完成。主干网络提取图片的主要特征、基于卷积神经网络训练模型以及使用梯度下降算法优化模型参数均为现有技术,在此,不再赘述。本实施例的待训练模型是在已经训练完成的模型的基础上构建的,同样包括主干网络、特征对比层和分类层,相对于已经训练完成的模型,待训练的模型的主干网络的结构层数较少。将图片A经过已经训练完成的模型,依次向前传播至特征对比层输出第一图像特征,将相同的图片A经过待训练模型,依次向前传播至特征对比层输出第二图像特征。进一步地,为了保证参数的统一,提高训练的精度和效率,待训练模型的特征对比层的维度与已经训练完成的模型的特征对比层的维度相同。本实施例中已经训练完成的模型的特征对比层的维度为64维,待训练模型的特征对比层的维度同样为64维。步骤S102:获取分类概率;其中,所述分类概率为所述第二图像特征经过所述待训练模型的分类层所输出的分类概率。具体的,将经过待训练模型的特征对比层的第二图像特征继续向前传播至分类层,计算出所有分类结果的分类概率。步骤S103:根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合。该步骤包括:步骤S1031:根据所述第一图像特征和所述第二图像特征计算第一损失函数。具体的,根据公式计算第一损失函数,其中,L1为第一损失函数,X1i为第一图像特征,X2i为第二图像本文档来自技高网...
一种神经网络模型的训练方法、电子设备及存储介质

【技术保护点】
一种神经网络模型的训练方法,其特征在于,包括:获取第一图像特征和第二图像特征;其中,所述第一图像特征为图片A经过已经训练完成的模型所输出的图像特征,所述第二图像特征为图片A经过待训练模型所输出的图像特征;获取分类概率;其中,所述分类概率为所述第二图像特征经过所述待训练模型的分类层所输出的分类概率;根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合。

【技术特征摘要】
1.一种神经网络模型的训练方法,其特征在于,包括:获取第一图像特征和第二图像特征;其中,所述第一图像特征为图片A经过已经训练完成的模型所输出的图像特征,所述第二图像特征为图片A经过待训练模型所输出的图像特征;获取分类概率;其中,所述分类概率为所述第二图像特征经过所述待训练模型的分类层所输出的分类概率;根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合。2.根据权利要求1所述的神经网络模型的训练方法,其特征在于,所述获取分类概率之前还包括:将所述待训练模型的分类层的参数替换为所述已经训练完成的模型的分类层的参数。3.根据权利要求2所述的神经网络模型的训练方法,其特征在于,所述根据所述第一图像特征、所述第二图像特征及所述分类概率更新所述待训练模型的参数直到所述第二图像特征与所述第一图像特征相拟合包括:根据所述第一图像特征和所述第二图像特征计算第一损失函数;根据所述分类概率计算第二损失函数;根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数。4.根据权利要求3所述的神经网络模型的训练方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数更新所述待训练模型的参数包括:根据所述第一损失函数和所述第二损失函数,利用链式法则和随机梯度下降...

【专利技术属性】
技术研发人员:徐鹏飞赵瑞
申请(专利权)人:深圳市深网视界科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1