基于迁移学习的深度残差卷积神经网络的自适应压缩方法技术

技术编号:23344886 阅读:36 留言:0更新日期:2020-02-15 04:23
本发明专利技术公开的一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,通过原网络模型结构的网络层组成分析,对网络结构进行分组,构建结构相似但体积更小的轻量化模型,提取原网络模型与轻量化模型的结构信息,再根据原网络模型的网络层分组,比较轻量化模型与原网络模型各组输出的特征图区别,二者共同指导轻量化模型进行阶段性参数更新,直至轻量化模型的各分组与原网络模型近似,其次将原网络模型的输出分类信息进行分类软化,诱导轻量化模型进行训练,最终轻量化模型继承原网络模型的检测性能。本发明专利技术适用于FPGA计算的深度卷积深度网络轻量化的压缩算法,节省FPGA上的硬件资源消耗,保证模型推理精度的同时提高了模型推理速度。

Adaptive compression method of convolutional neural network with deep residuals based on Transfer Learning

【技术实现步骤摘要】
基于迁移学习的深度残差卷积神经网络的自适应压缩方法
本专利技术涉及深度网络模型压缩
,特别涉及一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法。
技术介绍
随着深度学习技术的快速发展,深度学习在计算机视觉、语音识别、自然处理等领域实现了跨越式的突破。然而深度学习算法在工业、制造业和航天航海等领域还没得到非常广泛的应用,主要原因是现阶段的网络模型其结构过于复杂,参数数量庞大,模型体积巨大,这对存储空间、计算资源需求庞大。由于移动平台和嵌入式设备局限于其有限的内存和处理单元,并且由于网络结构复杂,在嵌入式设备中部署难度较大,导致CNN模型在这些平台上的部署面临巨大挑战。迁移学习作为一种模型性能转移方法,依据教师网络的输出特征,指导学生网络的参数更新,将教师网络的检测性能,移植到结构不完全相同的学生网络中。通过设计结构更为简单,参数规模更小的轻量化网络结构,并将原网络的检测性能移植至该轻量化网络,能够在保证检测性能不变的前提下,压缩网络规模,降低对存储与计算资源的需求,降低网络部署的复杂程度,解决FPGA等嵌入式移动平台资源受限的问题。近年来,利用迁移学习实现网络压缩的研究包括知识蒸馏、暗知识迁移、注意点迁移学习等。其中知识蒸馏首先先设计一个精简、低复杂度的学生网络,根据教师网络的预测结果输出,除以温度参数Temperature之后、再做softmax变换,可以获得软化的概率分布。基于学生网络自身预测结构的准确率,引入教师网络的相关软目标结果,作为学生网络的作为totalloss的一部分,以诱导学生网络的训练,有助于让学生网络更轻松的鉴别简单样本,但训练后期需要适当减小软目标的比重,让真实标注帮助鉴别困难样本,实现知识迁移;暗知识迁移的方法,考虑到直接将最终结果的差异性向前传播,引导整个网络的实现效果并不好,为了能够诱导训练更深、更纤细的学生网络,需要考虑教师网络中间层的FeatureMaps,用来指导学生网络中相应的结构。首先利用中间特征的暗知识,初始化学生网络,利用教师网络的softlabel指导整个学生网络的训练(即知识蒸馏),且totalloss中softtarget相关部分所占比重逐渐降低,从而让学生网络获得教师网络的检测性能;注意转移方法提出在网络中间层设置注意区域,通过正确定义卷积神经网络的注意区域,并随着网络层次的加深,提高关键区域的影响,通过使学生网络学习教师网络的注意区域的关键信息,从而显著提高其性能。但现阶段的方法中,压缩得到的学生网络的结构需要多次尝试或提前预知结构要求,难以自适应确定其网络结构。此外在教师网络对学生网络的诱导过程中,只是关注两者在某一阶段的特征输出相关的差异,这导致学生网络在迁移学习过程中需要大量的迭代次数,收敛速度较慢,并且在较深的网路中难以实现原网络模型性能的准确继承。因此,提供一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法是本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术针对上述研究现状和存在的问题,提供了一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,为将规模庞大的深度网络模型移植到FPGA平台上提供可能的技术支持。通过轻量化模型的构建、初始化和诱导训练的压缩方法,得到的轻量化模型具有原网络模型相同的检测性能,输出最终性能相同的轻量化模型。本专利技术提供了一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,包括如下步骤:步骤一,根据原网络模型结构排布的特征,对网络层结构进行优化,构建结构优化的轻量化模型;步骤二,根据优化结构对原网络模型和轻量化模型网络层进行分组,构建由输入端到当前分组输出端的阶段性模型,根据阶段性模型与原网络模型对应的网络中间层输出的特征图结果在特征输出上的差异,以及各网络层结构所包含优化结构之间的结构信息差异,生成阶段性指导信息,对阶段性模型进行反向传播并更新网络权重参数,直至阶段性模型与原网络模型差异信息减小至设定范围内,将下一分组结构扩展至当前阶段性模型的输出端之后,重复执行步骤二,直至轻量化模型完成阶段性初始化;步骤三,比较轻量化模型与原网络模型最终分类输出信息的差异信息,生成综合指导信息,对轻量化模型进行反向传播并更新网络权重参数,输出最终与原网络模型性能相同的轻量化模型。优选的,所述步骤一具体包括:将连续排布的3至5次的残差模块结构,优化成2次的残差模块结构;将连续排布的3至5层的卷积层,优化成2层的卷积层;将剩余的网络结构层保留,根据原网络模型网络层结构排序,构建结构优化的轻量化模型。优选的,所述步骤一构建的结构优化的轻量化模型要求与原网络模型的输入输出参数保持一致,包括输入输出通道数与特征图参数保证一致。优选的,所述步骤二具体包括:(1)根据优化结构的排布,将原网络模型与轻量化模型的网络层结构分为对应的多组;(2)提取模型从输入端至当前构建的阶段性模型结构的输出端为当前阶段训练结构,构建阶段性模型,提取当前阶段性模型各层输出结果;(3)利用原网络模型与阶段性模型输出的特征图参数作为当前分组结构的特征输出的信息,各结构层输入输出端的特征图运算得到内积关系矩阵作为结构信息,比较原网络模型与轻量化模型之间的特征输出差异和结构信息差异;(4)根据特征输出差异和结构信息差异,生成阶段性指导信息,根据阶段性指导信息,对阶段性模型的训练结构进行反向传播并更新参数,重复步骤(3),重新提取特征输出的信息与结构信息;(5)在步骤(3)、(4)的迭代循环中,判断特征输出的信息与结构信息的差异是否减小至设定范围内,若是,继续对当前阶段性模型的训练结构进行反向传播并更新参数;若否,则扩展当前阶段性模型的训练结构至下一分组重复迭代步骤(2)~(4),直至全部分组都训练完毕,完成轻量化模型的初始化。优选的,所述步骤(3)中原网络模型与轻量化模型的特征输出的差异信息,根据原网络模型中间结果输出的特征图参数与相对应阶段性模型输出的特征图参数通过计算特征图参数的平均差异值,获得特征输出差异值。优选的,所述步骤(3)中优化结构的阶段性模型与原网络模型结构的结构信息,分别根据各结构层输入输出端的特征图进行内积运算确定,获得含有结构信息的内积关系矩阵,若输入输出特征图参数不一致,则采用池化层进行调整;根据对应优化结构的阶段性模型与原网络模型结构的结构信息,计算内积关系矩阵和参数之间的平均差异值,获得结构信息差异值。优选的,所述步骤三具体包括:利用测试数据,获取原网络模型和轻量化模型输出的分类结果,利用软化因子对原网络模型的分类结果进行软化,使其包含分类判断的模糊信息,根据轻量化模型的分类结果,与原网络模型的分类结果之间的差异,生成综合指导信息,对轻量化模型进行反向传播并更新参数,动态调整影响比例因子,直至影响比例因子为0,即轻量化模型已经具有原网络模型相同的检测性能,输出最终与原网络模型性能相同的轻量化模型。本专利技术不断降低原网络模型分类结果的影响,逐渐加强分类结果的准确性本文档来自技高网
...

【技术保护点】
1.一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,其特征在于,包括如下步骤:/n步骤一,根据原网络模型结构排布的特征,对网络层结构进行优化,构建结构优化的轻量化模型;/n步骤二,根据优化结构对原网络模型和轻量化模型网络层进行分组,构建由输入端到当前分组输出端的阶段性模型,根据阶段性模型与原网络模型对应的网络中间层输出的特征图结果在特征输出上的差异,以及各网络层结构所包含优化结构之间的结构信息差异,生成阶段性指导信息,对阶段性模型进行反向传播并更新网络权重参数,直至阶段性模型与原网络模型差异信息减小至设定范围内,将下一分组结构扩展至当前阶段性模型的输出端之后,重复执行步骤二,直至轻量化模型完成阶段性初始化;/n步骤三,比较轻量化模型与原网络模型最终分类输出信息的差异信息,生成综合指导信息,对轻量化模型进行反向传播并更新网络权重参数,输出最终与原网络模型性能相同的轻量化模型。/n

【技术特征摘要】
1.一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,其特征在于,包括如下步骤:
步骤一,根据原网络模型结构排布的特征,对网络层结构进行优化,构建结构优化的轻量化模型;
步骤二,根据优化结构对原网络模型和轻量化模型网络层进行分组,构建由输入端到当前分组输出端的阶段性模型,根据阶段性模型与原网络模型对应的网络中间层输出的特征图结果在特征输出上的差异,以及各网络层结构所包含优化结构之间的结构信息差异,生成阶段性指导信息,对阶段性模型进行反向传播并更新网络权重参数,直至阶段性模型与原网络模型差异信息减小至设定范围内,将下一分组结构扩展至当前阶段性模型的输出端之后,重复执行步骤二,直至轻量化模型完成阶段性初始化;
步骤三,比较轻量化模型与原网络模型最终分类输出信息的差异信息,生成综合指导信息,对轻量化模型进行反向传播并更新网络权重参数,输出最终与原网络模型性能相同的轻量化模型。


2.根据权利要求1所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,其特征在于,所述步骤一具体包括:
将连续排布的3至5次的残差模块结构,优化成2次的残差模块结构;
将连续排布的3至5层的卷积层,优化成2层的卷积层;
将剩余的网络结构层保留,根据原网络模型网络层结构排序,构建结构优化的轻量化模型。


3.根据权利要求1或2所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,其特征在于,所述步骤一构建的结构优化的轻量化模型要求与原网络模型的输入输出参数保持一致,包括输入输出通道数与特征图参数保证一致。


4.根据权利要求1所述一种基于迁移学习的深度残差卷积神经网络模型自适应压缩方法,其特征在于,所述步骤二具体包括:
(1)根据优化结构的排布,将原网络模型与轻量化模型的网络层结构分为对应的多组;
(2)提取模型从输入端至当前构建的阶段性模型结构的输出端为当前阶段训练结构,构建阶段性模型,提取当前阶段性模型各层输出结果;
(3)利用原网络模型与阶段性模型输出的特征图参数作为当前分组结构的特征输出的信息,...

【专利技术属性】
技术研发人员:姜宏旭李浩李波黄双喜李晓斌
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1