一种基于熵注意的神经网络模型压缩与加速方法技术

技术编号：21800188 阅读：33 留言：0更新日期：2019-08-07 10:46

本发明专利技术属于神经网络技术领域，涉及一种基于熵注意的神经网络模型压缩与加速方法。本发明专利技术通过构建一个参数量大，计算量大且性能优越的教师网络模型来对一个参数量少、计算量少且性能欠佳的学生网络的强监督学习，通过该学习过程，最终得到了一个参数量少、计算量少且性能优越的小模型，该小模型能够满足现实场景的实时性以及精度要求。

A Compression and Acceleration Method of Neural Network Model Based on Entropy Attention

全部详细技术资料下载

【技术实现步骤摘要】
一种基于熵注意的神经网络模型压缩与加速方法
本专利技术属于神经网络
，涉及一种基于熵注意的神经网络模型压缩与加速方法。
技术介绍
近几年来，卷积神经网络的发展非常的迅速，随着理论的不断完善以及现代大规模计算平台的支持，卷积神经网络取得了很大的进步。在不同的领域上都有应用，且在不同的应用上都表现出了非常好的性能。卷积神经网络是计算密集型的网络模型，优势的性能依赖于包含具有数百万乃至数千万的卷积神经网络模型，模型的训练涉及大量的矩阵运算，因此对于计算平台的要求较高，由于GPU的大规模并行计算的优势，很适合矩阵的运算，因此GPU的高性能计算对于卷积神经网络的成功发展起到了关键的作用。例如，在2012年的ImageNet挑战赛中，AlexNet网络取得了最好的结果，AlexNet包含5层卷积层以及三个全连接层，整体包含六千万的参数量，在ImageNet数据集上且采用英伟达K40机器需要花三天模型训练时间。又比如在2014年的ImageNet挑战赛中，VGGNet系列模型取得了当年非常好的成绩，其中如VGG16模型，其中包含13层卷积，3个全连接层，包含上亿的参数，参数量的巨大，虽然性能提升了，需要花费大量的训练时间，同样推断时间也会花费很长的时间。模型的参数量的增加虽然能够增加性能，但是不适合在低功耗、低存储、低带宽的嵌入式设备应用，如果一个模型参数量太大，无疑也会限制其在工程上的应用。
技术实现思路
本专利技术的目的是针对上述问题，为了克服由于卷积神经网络模型参数量以及计算量庞大，在现实场景的实时性应用中很难部署的问题。本专利技术提供了一种基于熵注意的神经网络...

【技术保护点】
1.一种基于熵注意的神经网络模型压缩与加速方法，其特征在于，包括以下步骤：S1、获取训练样本：采集原始的光学图像数据，并进行数据归一化以及数据增强处理，获得训练样本；S2、构建卷积神经网络模型S21、构建一个由卷积滤波器与池化滤波器级联而成的卷积神经网络，卷积滤波器用于对输入数据进行特征提取，卷积滤波器的数量表示提取的特征的丰富程度，池化滤波器用于对输入进行降维，从而降低模型的参数与计算代价；将该步骤构建的模型定义为教师网络；S22、构建一个相比步骤S21中建立的教师网络要浅且窄的卷积神经网络模型，定义为学生网络；S3、卷积神经网络模型训练S31、参数初始化，包括学习率α，训练迭代次数为n，Mini‑batch大小A，教师网络宽度W和深度H、学生网络宽度w和深度h，训练集和验证集占比r，采用随机梯度优化算法SGD作为优化函数；S32、每次从训练样本中随机抽取包含A个样本的mini‑batch作为训练数据，初始训练教师网络，训练直到设定的迭代次数n，得到初始训练好的教师网络，然后进入S33；S33、每次从训练样本中随机抽取包含A个样本的mini‑batch作为训练数据，通过构建教师网络和...

【技术特征摘要】
1.一种基于熵注意的神经网络模型压缩与加速方法，其特征在于，包括以下步骤：S1、获取训练样本：采集原始的光学图像数据，并进行数据归一化以及数据增强处理，获得训练样本；S2、构建卷积神经网络模型S21、构建一个由卷积滤波器与池化滤波器级联而成的卷积神经网络，卷积滤波器用于对输入数据进行特征提取，卷积滤波器的数量表示提取的特征的丰富程度，池化滤波器用于对输入进行降维，从而降低模型的参数与计算代价；将该步骤构建的模型定义为教师网络；S22、构建一个相比步骤S21中建立的教师网络要浅且窄的卷积神经网络模型，定义为学生网络；S3、卷积神经网络模型训练S31、参数初始化，包括学习率α，训练迭代次数为n，Mini-batch大小A，教师网络宽度W和深度H、学生网络宽度w和深度h，训练集和验证集占比r，采用随机梯度优化算法SGD作为优化函数；S32、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据，初始训练教师网络，训练直到设定的迭代次数n，得到初始训练好的教师网络，然后进入S33；S33、每次从训练样本中随机抽取包含A个样本的mini-batch作为训练数据，通过构建教师网络和学生网络之间的共同的目标函数，训练得到学生网络，具体构建方式如下：S331、将教师网络和指定宽度w和深度h的学生网络结合，即输入数据将同时通过教师网络和学生网络；初始训练好的教师网络的Softmax输出同学生网络的输出构建交叉熵作为软目标S，而学生网络的输出同当前数据类别标签构建交叉熵作为硬目标H，带温度的Softmax的公式定义如下所示：其中qi为带温度的Softmax概率，Z是某个类别的logit输出，下标j是指所有类别，i是指其中一个类别，T为温度值，总的损失函数是软硬目标之间的加权和，设为LKD，公式如下所示:LKD＝a*S+b*H该损失函数用于单独作为监督信息，其中系数a和b分别为软目标与硬目标的加权系数，通过加权系数的设置，能够平衡两个交叉熵损失之间的重要性；S332、构建教师网络中间层与对应学生网络的中间层的熵注意知识迁移损失，该损失构建分为低中高三个位置，教师网络在三个位置对学生网络进行监督学习，将损失函数在定义为EAKT损失；为了构建注意力机制，考虑到卷积层的每个激活通道的信息量的差异，引入信息熵，具体的信息熵的公式如下所示：其中E为某个激活通道的信息熵值，每个激活通道将得到一个参数向量，将每个通道对应的参数向量中不同的值分到K个组中，每...

【专利技术属性】
技术研发人员：闵锐，蒋霆，
申请(专利权)人：电科瑞达成都科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人