【技术实现步骤摘要】
任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质
本专利技术涉及深度神经网络的知识蒸馏,具体为任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质。
技术介绍
近年来,在自然语言处理和计算机视觉等各种应用中,深度神经网络已经取得了显著的成就。然而,神经网络的成功总是伴随着模型参数和计算的爆炸性增长,这限制了神经网络在例如移动电话和嵌入式设备之类的边缘设备上的部署。已经提出各种技术来解决此问题,包括修剪、量化、轻量化模型设计和知识蒸馏。Hinton等人首先提出蒸馏的概念,其中训练轻量化学生模型以模拟过度参数化的教师模型的SoftMax输出,即对数。然后,提出了丰富的特征蒸馏方法,鼓励学生模型模仿教师模型的特征。由于教师模型的特征具有比对数更多的信息,因此特征蒸馏使得学生模型能够学习更丰富的信息,并且始终可以提高精度。如图1所示,现有技术中,大多数特征蒸馏方法不是直接学习教师模型的所有特征,而是首先将变换函数应用于特征以将它们转换成易于蒸馏的形式,然后将它们提取给学生。特征蒸馏是知识蒸馏中 ...
【技术保护点】
1.任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,包括,/n在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;/n所述的辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。/n
【技术特征摘要】 【专利技术属性】
1.任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,包括,
在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;
所述的辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。
2.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的辅助分类器由多个卷积层、池化层和全连接层组成。
3.根据权利要求2所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,通过对数蒸馏损失训练辅助分类器卷积层的卷积变化函数和全连接层。
4.根据权利要求3所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的对数蒸馏损失的公式如下,
其中,LKL是KL发散损失,为训练对象,为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量。
5.根据权利要求1所述的任务牵引的特征蒸馏深度神经网络学习训练方法,其特征在于,所述的辅助分类器采用如下的面向任务的特征蒸馏损失函数进行任务损失训练和特征蒸馏损失训练,
技术研发人员:马恺声,张林峰,
申请(专利权)人:交叉信息核心技术研究院西安有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。