一种优化低比特模型训练的方法技术

技术编号:33998001 阅读:17 留言:0更新日期:2022-07-02 11:23
本发明专利技术提出一种优化低比特模型训练的方法,旨在克服上述现有技术中存在的缺陷,解决现有2bit模型在训练过程中精度损失严重和难以收敛的问题。所述方法包括以下步骤:S1,全精度模型训练:基于数据集训练一个全精度模型;S2,低比特模型训练:然后再依次训练4bit模型、2bit模型,并且在不同的位宽下采用不同的权重衰减系数和优化器。衰减系数和优化器。衰减系数和优化器。

【技术实现步骤摘要】
一种优化低比特模型训练的方法


[0001]本专利技术涉及图像处理
,特别涉及一种优化低比特模型训练的方法。

技术介绍

[0002]近年来,随着科技的飞速发展,大数据时代已经到来。深度学习以深度神经网络(DNN)作为模型,在许多人工智能的关键领域取得了十分显著的成果,如图像识别、增强学习、语义分析等。卷积神经网络(CNN)作为一种典型的DNN结构,能有效提取出图像的隐层特征,并对图像进行准确分类,在近几年的图像识别和检测领域得到了广泛的应用。
[0003]现有技术中在训练全精度模型多采用的时Relu函数,由于全精度数表示的实数范围很广,可以满足训练过程中需要的数值范围,可是在训练低比特时,由于位宽的限制,所以其表示范围是有有限的,导致训练过程中模型无法有效的收敛,最终模型的精度并不理想。
[0004]现有技术中的常用术语包括:
[0005]卷积神经网络(Convolutional Neural Networks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络。
[0006]量化:量化指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。
[0007]低比特:将数据量化为位宽为8bit,4bit或者2bit的数据。

技术实现思路

[0008]为了解决上述问题,本方法旨在克服上述现有技术中存在的缺陷,解决现有2bit模型在训练过程中精度损失严重和难以收敛的问题。
[0009]基于全精度模型微调低比特模型:先用数据集训练一版全精度模型达到目标精度,然后基于全精度模型微调训练一版低比特模型。
[0010]具体地,本专利技术提供一种优化低比特模型训练的方法,所述方法包括以下步骤:
[0011]S1,全精度模型训练:基于数据集训练一个全精度模型;
[0012]S2,低比特模型训练:然后再依次训练4bit模型、2bit模型,并且在不同的位宽下采用不同的权重衰减系数和优化器。
[0013]所述步骤S1进一步包括:
[0014]S1.1,训练数据:
[0015]训练模型的数据集是ImageNet1000,该数据集是ImageNet数据集的一个子集,有大约1.2million的训练集,5万验证集,15万测试集,1000个类别;
[0016]S1.2,建立模型:
[0017]训练采用的基础神经网络模型是MobileNetV1,该网络是一种基于深度可分离卷积的模型;
[0018]S1.3,训练网络:
[0019]对于网络的训练基本步骤是:将权重衰减系数设置为0.0005,先采用adam优化器训练60个epoch,然后再用SGD优化器直至训练结束;
[0020]S1.4,测试网络效果:利用测试集测试网络结果。
[0021]所述步骤S2进一步包括:
[0022]S2.1,数据量化:对于待量化的数据进行量化,得到低比特的数据;
[0023]S2.2,进行低比特模型训练:
[0024]S2.2.1,训练4bit模型;
[0025]S2.2.2,训练2bit模型;
[0026]S2.2.3,测试网络效果:
[0027]S2.2.4,输出网络。
[0028]所述步骤S2.1,按照公式1进行量化:
[0029][0030]变量说明:W
f
为全精度数据是一个数组,W
q
为模拟量化后的数据,max
w
全精度数据W
f
中最大值,min
w
全精度数据W
f
中最小值,b为量化后的位宽。
[0031]所述步骤S2.2.1,所述训练4bit模型:训练时将权重和激活量化到4bit,并将权重衰减系数置位0即不采用权重衰减;并且采用adam优化器,训练模型直至收敛。
[0032]所述步骤S2.2.2,所述训练2bit模型:经过步骤S2.2.1训练后得到一个权重和激活都量化成4bit的模型,然后再基于该模型训练权重和激活都量化成2bit的模型,在训练2bit模型时需将权重衰减系数置位0.00005,并且在前60epoch训练时采用adam优化器,之后调低学习率为0.0001,采用SGD优化器,训练模型直至收敛。
[0033]由此,本申请的优势在于:本方法简单,通过先基于数据集训练一个全精度模型,然后再训练4bit模型,2bit模型,并且在不同的位宽下采用不同的权重衰减系数和优化器的方法,实现了卷积神经网络在量化时提高模型精度的目的。
附图说明
[0034]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。
[0035]图1是本专利技术方法的流程示意图。
[0036]图2是本专利技术中低比特模型训练流程示意图。
具体实施方式
[0037]为了能够更清楚地理解本专利技术的
技术实现思路
及优点,现结合附图对本专利技术进行进一步的详细说明。
[0038]如图1所示,本专利技术涉及一种优化低比特模型训练的方法,所述方法包括以下步骤:
[0039]S1,全精度模型训练:基于数据集训练一个全精度模型;
[0040]S2,低比特模型训练:然后再依次训练4bit模型、2bit模型,并且在不同的位宽下采用不同的权重衰减系数和优化器。
[0041]具体地,所述方法包括以下内容:
[0042]1全精度模型训练:
[0043]1)训练数据:
[0044]训练模型的数据集是ImageNet1000,该数据集是ImageNet数据集的一个子集,有大约1.2million的训练集,5万验证集,15万测试集,1000个类别。
[0045]2)模型:
[0046]本次训练采用的基础神经网络模型是MobileNetV1,该网络是一种基于深度可分离卷积的模型。
[0047]3)训练网络:
[0048]对于网络的训练基本步骤是:将权重衰减系数设置为0.0005,先采用adam优化器训练60个epoch,然后再用SGD优化器直至训练结束。
[0049]4)测试网络效果:
[0050]利用测试集测试网络结果。
[0051]2低比特模型训练:
[0052]数据量化:对于待量化的数据按照以下所示的公式进行量化,得到低比特的数据。
[0053][0054]变量说明:W
f
为全精度数据是一个数组,W
q
为模拟量化后的数据,max
w
全精度数据W
f
中最大值,min
w
全精度数据W
f
中最小值,b为量化后的位宽。
[0055]低比特模型训练流程如图2所示,主要分成2步,分别为:
[0056]1)训练4bit的模型:
[0057]训练时将权重和激活量化到4bit,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化低比特模型训练的方法,其特征在于,所述方法包括以下步骤:S1,全精度模型训练:基于数据集训练一个全精度模型;S2,低比特模型训练:然后再依次训练4bit模型、2bit模型,并且在不同的位宽下采用不同的权重衰减系数和优化器。2.根据权利要求1所述的一种优化低比特模型训练的方法,其特征在于,所述步骤S1进一步包括:S1.1,训练数据:训练模型的数据集是ImageNet1000,该数据集是ImageNet数据集的一个子集,有大约1.2million的训练集,5万验证集,15万测试集,1000个类别;S1.2,建立模型:训练采用的基础神经网络模型是MobileNetV1,该网络是一种基于深度可分离卷积的模型;S1.3,训练网络:对于网络的训练基本步骤是:将权重衰减系数设置为0.0005,先采用adam优化器训练60个epoch,然后再用SGD优化器直至训练结束;S1.4,测试网络效果:利用测试集测试网络结果。3.根据权利要求1所述的一种优化低比特模型训练的方法,其特征在于,所述步骤S2进一步包括:S2.1,数据量化:对于待量化的数据进行量化,得到低比特的数据;S2.2,进行低比特模型训练:S2.2.1,训练4bit模型;S2.2.2,训练2bit模型;S2.2.3,测试网络效果...

【专利技术属性】
技术研发人员:张东
申请(专利权)人:合肥君正科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1