The invention discloses an optimization method of convolutional neural network based on knowledge distillation, which establishes a bridge by selecting a position from the additional structure of the feature pyramid of FPN, establishes a plurality of feature adaptation layers at the bridge position between the teacher's FPN network T and the student's FPN network S, and uses hierarchical weighted multi-scale loss function as network training. Training loss function. The positive effect of the invention is: on the one hand, the knowledge distillation design based on the invention can compress the complex teacher's FPN network and obtain a smaller and faster student's FPN network. Compared with the existing target detection technology based on CNN, which directly uses FPN, it is more convenient to deploy edge calculation; on the other hand, considering the way of knowledge distillation, compared with the existing knowledge distillation technology, the present invention can better adapt to the multi-scale target detection network FPN, and can better train the high-quality student FPN network.
【技术实现步骤摘要】
一种基于知识蒸馏的卷积神经网络优化方法
本专利技术涉及一种基于知识蒸馏的卷积神经网络优化方法。
技术介绍
目前,深度学习由于其强大的表征能力,提取的特征相比传统方法手工构造的特征具有更强的鲁棒性,因此以卷积神经网络(CNN)为代表的深度学习技术被广泛应用于图像分类、目标检测、图像分割等多种传统计算机视觉任务中。其中,在图像分类中CNN应用的典型方式是基于交叉熵方法作为损失函数,进行CNN模型的训练。近年来,深度学习的发展呈现三大趋势:模型结构日趋复杂、模型层次不断加深、海量数据集不断发展。然而,随着在移动端及嵌入式平台运用CNN进行边缘计算的需求不断攀升,由于边缘侧计算平台资源受限,要求CNN模型尽可能的小,并且计算效率高。为此,近年来学术界和工业界提出了各种类型的模型压缩方法,如模型剪枝、低秩分解、模型参数低精度量化等。Hinton等在2014年的论文DistillingtheKnowledgeinaNeuralNetwork中,提出了一种知识蒸馏的方法,可将一个在大型的训练数据集上训练得到的大型CNN作为教师网络,并以一个小型CNN作为学生网络,通过联合训练教师网络输出的概率分布向量和训练集的人工标注,对学生网络进行训练。他们证明了这种方法可以克服小型CNN在大数据集上的训练困难性,训练完成后可在分类任务上取得接近或超过教师网络的测试结果。该方法可以视为一种知识迁移的手段,将知识从教师网络通过训练迁移到学生网络上。完成迁移后通过设计目标为小快灵的学生网络代替大而笨重的教师网络,进行任务运用,从而大大便利了深度学习在边缘侧平台的部署。在Hinton等提出 ...
【技术保护点】
1.一种基于知识蒸馏的卷积神经网络优化方法,其特征在于:从FPN的特征金字塔部分的附加结构中选取位置建立桥接;在教师FPN网络T与学生FPN网络S之间的桥接位置建立多个特征适配层;采用层次加权的多尺度损失函数用作网络训练的损失函数。
【技术特征摘要】
1.一种基于知识蒸馏的卷积神经网络优化方法,其特征在于:从FPN的特征金字塔部分的附加结构中选取位置建立桥接;在教师FPN网络T与学生FPN网络S之间的桥接位置建立多个特征适配层;采用层次加权的多尺度损失函数用作网络训练的损失函数。2.根据权利要求1所述的一种基于知识蒸馏的卷积神经网络优化方法,其特征在于:在教师FPN网络T与学生FPN网络S之间的桥接位置上用1x1卷积层进行特征适配。3.根据权利要求1所述的一种基于知识蒸馏的卷积神经网络优化方法,其特征在于:若在教师FPN网络T与学生FPN网络S之间建立多个桥接,则其中任意两个桥接(Pi_t,Pk_s)和(Pj_t,Pl_s)的位置关系均须满足如下约束:(1)i不等于j,且k不等于1;(2)如果i>j,则k>1。4.根据权利要求1所述的一种基于知识蒸馏的卷积神经网络优化方法,其特征在于:特征适配层的个数n采用如下方式确定:1≤n≤N且N=min(Nt,Ns),其中:Nt表示教师FPN网络T附加结构输出特征图数量,Ns表示学生FPN网络S附加结构输出特征图数量。5.根据权利要求1所述的一种基于知识蒸馏的卷积...
【专利技术属性】
技术研发人员:王标,隆刚,史方,
申请(专利权)人:成都视观天下科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。