当前位置: 首页 > 专利查询>复旦大学专利>正文

深度可分离卷积和批规范化融合的方法技术

技术编号:23853875 阅读:32 留言:0更新日期:2020-04-18 10:03
本发明专利技术属于神经网络模型技术领域,具体为一种深度可分离卷积和批规范化融合的方法。本发明专利技术首先从训练好的含有深度可分离卷积和批规范化层的神经网络模型,导出的Pointwise卷积的参数和批规范化的参数,通过特别设计的方法,重新计算出一组新的参数,用于对Pointwise卷积的权重和偏置进行赋值,修改Pointwise卷积的权重和偏置;然后删除掉原先网络结构中的批规范化层的效果,将批规范化层的计算添加在在Pointwise卷积中,得到与深度可分离卷积和批规范化等效的深度可分离卷积层,实现卷积融合批规范化的效果。本发明专利技术可有效地减少计算量。

Deep separable convolution and batch normalization fusion

【技术实现步骤摘要】
深度可分离卷积和批规范化融合的方法
本专利技术属于神经网络模型
,具体涉及一种深度可分离卷积和批规范化融合的方法。
技术介绍
神经网络技术,尤其是轻量级神经网络一直是研究和应用的热点话题。深度可分离卷积,其有效的使得卷积层的计算量大大化简,其将卷积分为了两个步骤,第一个步骤称之为Depthwise卷积,其利用分组卷积的思想,使得不同卷积层之间无相互计算,仅仅计算单层卷积的结果,从而大幅度减少实现卷积的计算量。第二个步骤称之为Pointwise卷积,其有效的将第一步Depthwise卷积学习到的特征进行重新融合,从而实现对于Depthwise特征仅仅来自于单层的不足。使得其两者整体达到近似传统神经网络卷积的效果。其具体实现一般是使用卷积核为1x1的卷积完成。批规范化层,由于可以有效的把神经网络中间层学习到的特征重新进行规范化,使得神经网络的梯度可以有效地在多层之间传递,从而使得深层神经网络的训练变得可能。其拥有四个参数,两个用来表示输入的均值和方差,使用均值和方差来让特征重新规范化。另外两个则是神经网络学习的参数,用于特征重构,实现让神经网络模型学习到的特征不被破坏。其和深度可分离卷积都是在实际的神经网络模型构建中,常常使用到的。因此如果可以将两者在实际应用的时候融合起来,就可以在实际应用中有效地减少计算量。
技术实现思路
本专利技术的目的在于提出一种融合深度可分离卷积和批规范化的方法,以有效地减少计算量。本专利技术提出的融合深度可分离卷积和批规范化的方法,训练好的含有深度可分离卷积和批规范化层的神经网络模型,导出的Pointwise卷积的参数和批规范化的参数,通过特别设计的方法,重新计算出一组新的参数,用于对Pointwise卷积的权重和偏置进行赋值,修改Pointwise卷积的权重和偏置;然后删除掉原先网络结构中的批规范化层的效果,将批规范化层的计算添加在在Pointwise卷积中,得到与深度可分离卷积和批规范化等效的深度可分离卷积层,实现卷积融合批规范化的效果;具体步骤如下:(1)对于训练好的含有深度可分离卷积和批规范化层的神经网络模型,要求在深度可分离卷积和批规范化层之间没有非线性激活函数,首先导出深度可分离卷积的Pointwise卷积的权重wpwConv和偏置项bpwConv,以及批规范化层的参数γ、β、mean和var;其中γ、β为批规范化层的学习参数,mean和var为批规范化层的计算参数;这些参数将用于后续的计算;(2)按如下式子计算得到新的Pointwise卷积参数:其中,∈表示的是一个防止出现除0的超参,*表示的是卷积计算;(3)将和取代原有的Pointwise卷积的权重wpwConv和偏置项bpwConv,并删除原网络中的批规范化层,得到新的神经网络结构和对应的权重;至此,深度可分离卷积和批规范化融合完成;用ydwConv表示Depthwise卷积的输出,ybn表示批规范化的输出,这样就直接连接到了ydwConv和ybn:(4)在得到了新的网络结构之后,就可以使用新的网络结构来取代原有的网络结构,从而实现了简化计算量的效果。本专利技术中,通过方法的设计,使得批规范层可以有效地融合到深度可分离卷积中去,从而可以减少神经网络模型在推断阶段的计算量。本专利技术中,在模型训练结束之后,导出所有的训练好的模型参数,对Pointwise卷积的权重wpwConv和偏置项bpwConv,以及批规范化层的参数γ、β、mean和var进行数学推导和计算,使之可以计算出新的和并使用其取代原有的Pointwise卷积的权重wpwConv和偏置项bpwConv。本专利技术中,删除原始网络结构中的批规范化层,然后使得原始结构的深度可分离卷积的Pointwise卷积的权重和偏置被新的权重和偏置修改。本专利技术方法可有效地减少计算量。附图说明图1本专利技术方法示意图。具体实施方式下面结合示意图,来对本专利技术做进一步描述。开始的神经网络层结构如图1的上半部所示,其包含深度可分离卷积和批规范化,因为深度可分离卷积包含Depthwise和Pointwise两个部分,所以最终在示意图中有三个部分。第一个部分为Depthwise卷积,其是一种分离卷积,所有这里使用了三种不同颜色的卷积核与对应的卷积层进行卷积来表现其分离卷积的思想。通过分离卷积,得到了分离卷积的输出。其会被送给Pointwise卷积来作为Pointwise的输入。对于Pointwise卷积,其是一种卷积核为1x1的常规卷积,所以这里使用交错的1x1卷积核来表现其卷积过程,通过这样的Pointwise卷积,实现了使得不同的Depthwise卷积的输出融合起来的效果。在Pointwise卷积结束之后,使用一个批规范化层(batchnormalization)来对Pointwise的输出进行进一步的处理,其计算等效于卷积核为1x1的Depthwise卷积。这样可以有效地处理了数据,使得反向传播梯度得以被更好的保留。值得注意的是,本专利技术方法要求在Pointwise和批规范化之间不能有非线性的激活函数。实际设计中,激活函数一般会被加在批规范化层之后,这样做也可以保证批规范化层可以很好的表现其性能。在模型训练完成之后,Depthwise卷积、Pointwise卷积和批规范化的参数都被确定下来且保存到了模型文件中。从模型文件中读取这些参数,按照公式(1)和(2)计算出和其中超参数∈选取10-20。之后重新设计一个神经网络模型B,如图1的下半部分所示。其结构与原始模型结构A几乎一致,区别在于每一个深度可分离卷积之后的批规范化都被从网络结构中删除,而其他的所有网络层结构都被保留。对于除了Pointwise卷积之外的网络层,使用原始训练好的网络结构A对应层的权重对模型B进行赋值。对于Pointwise卷积,将计算出的和给Pointwise卷积的权重和偏置进行赋值,从而使得构建出的新网络所有的参数都被赋值完毕。这样便得到了一个全新的网络结构模型,这个新的网络结构则可以被用于取代原始模型来进行推断。不难发现,原始训练好的网络结构A中比新设计的简化模型B多出了很多批规范化的计算量,其他地方则保持了一致。事实上新设计的模型性能表现几乎是和原始模型一致的,所以本专利技术实现了节省掉原始模型中的一部分计算量的效果。最后就可以把新设计的模型B取代A,进行推断即可。本文档来自技高网...

【技术保护点】
1.一致深度可分离卷积和批规范化融合的方法,其特征在于,从训练好的含有深度可分离卷积和批规范化层的神经网络模型,导出的Pointwise卷积的参数和批规范化的参数,通过特别设计的计方法,重新计算出一组新的参数,用于对Pointwise卷积的权重和偏置进行赋值,修改Pointwise卷积的权重和偏置;然后删除掉原先网络结构中的批规范化层的效果,将批规范化层的计算添加在在Pointwise卷积中,得到与深度可分离卷积和批规范化等效的深度可分离卷积层,实现卷积融合批规范化的效果;具体步骤如下:/n(1)对于训练好的含有深度可分离卷积和批规范化层的神经网络模型,要求在深度可分离卷积和批规范化层之间没有非线性激活函数,首先导出深度可分离卷积的Pointwise卷积的权重w

【技术特征摘要】
1.一致深度可分离卷积和批规范化融合的方法,其特征在于,从训练好的含有深度可分离卷积和批规范化层的神经网络模型,导出的Pointwise卷积的参数和批规范化的参数,通过特别设计的计方法,重新计算出一组新的参数,用于对Pointwise卷积的权重和偏置进行赋值,修改Pointwise卷积的权重和偏置;然后删除掉原先网络结构中的批规范化层的效果,将批规范化层的计算添加在在Pointwise卷积中,得到与深度可分离卷积和批规范化等效的深度可分离卷积层,实现卷积融合批规范化的效果;具体步骤如下:
(1)对于训练好的含有深度可分离卷积和批规范化层的神经网络模型,要求在深度可分离卷积和批规范化层之间没有非线性激活函数,首先导出深度可分离卷积的Pointwise卷积的权重wpwConv和偏置项bpwConv,以及批规范化...

【专利技术属性】
技术研发人员:范益波刘超
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1