一种优化低比特模型训练的方法技术

技术编号：33998001 阅读：17 留言：0更新日期：2022-07-02 11:23

本发明专利技术提出一种优化低比特模型训练的方法，旨在克服上述现有技术中存在的缺陷，解决现有2bit模型在训练过程中精度损失严重和难以收敛的问题。所述方法包括以下步骤：S1，全精度模型训练：基于数据集训练一个全精度模型；S2，低比特模型训练：然后再依次训练4bit模型、2bit模型，并且在不同的位宽下采用不同的权重衰减系数和优化器。衰减系数和优化器。衰减系数和优化器。

全部详细技术资料下载

【技术实现步骤摘要】
一种优化低比特模型训练的方法

[0001]本专利技术涉及图像处理
，特别涉及一种优化低比特模型训练的方法。

技术介绍

[0002]近年来，随着科技的飞速发展，大数据时代已经到来。深度学习以深度神经网络(DNN)作为模型，在许多人工智能的关键领域取得了十分显著的成果，如图像识别、增强学习、语义分析等。卷积神经网络(CNN)作为一种典型的DNN结构，能有效提取出图像的隐层特征，并对图像进行准确分类，在近几年的图像识别和检测领域得到了广泛的应用。
[0003]现有技术中在训练全精度模型多采用的时Relu函数，由于全精度数表示的实数范围很广，可以满足训练过程中需要的数值范围，可是在训练低比特时，由于位宽的限制，所以其表示范围是有有限的，导致训练过程中模型无法有效的收敛，最终模型的精度并不理想。
[0004]现有技术中的常用术语包括：
[0005]卷积神经网络(Convolutional Neural Networks,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络。
[0006]量化：量化指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。
[0007]低比特：将数据量化为位宽为8bit，4bit或者2bit的数据。

技术实现思路

[0008]为了解决上述问题，本方法旨在克服上述现有技术中存在的缺陷，解决现有2bit模型在训练过程中精度损失严重和难以收敛的问题。
[0009]基于全精度模型微调低比特模型：先用数据集...

【技术保护点】

【技术特征摘要】
1.一种优化低比特模型训练的方法，其特征在于，所述方法包括以下步骤：S1，全精度模型训练：基于数据集训练一个全精度模型；S2，低比特模型训练：然后再依次训练4bit模型、2bit模型，并且在不同的位宽下采用不同的权重衰减系数和优化器。2.根据权利要求1所述的一种优化低比特模型训练的方法，其特征在于，所述步骤S1进一步包括：S1.1，训练数据：训练模型的数据集是ImageNet1000，该数据集是ImageNet数据集的一个子集，有大约1.2million的训练集，5万验证集，15万测试集，1000个类别；S1.2，建立模型：训练采用的基础神经网络模型是MobileNetV1，该网络是一种基于深度可分离卷积的模型；S1.3，训练网络：对于网络的训练基本步骤是：将权重衰减系数设置为0.0005，先采用adam优化器训练60个epoch，然后再用SGD优化器直至训练结束；S1.4，测试网络效果：利用测试集测试网络结果。3.根据权利要求1所述的一种优化低比特模型训练的方法，其特征在于，所述步骤S2进一步包括：S2.1，数据量化：对于待量化的数据进行量化，得到低比特的数据；S2.2，进行低比特模型训练：S2.2.1，训练4bit模型；S2.2.2，训练2bit模型；S2.2.3，测试网络效果...

【专利技术属性】
技术研发人员：张东，
申请(专利权)人：合肥君正科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人