当前位置: 首页 > 专利查询>厦门大学专利>正文

基于异质生成数据的神经网络无数据量化方法技术

技术编号:34642224 阅读:23 留言:0更新日期:2022-08-24 15:17
基于异质生成数据的神经网络无数据量化方法,涉及人工神经网络的压缩与加速。包括以下步骤:1)使用标准高斯分布随机初始化假图片。2)优化初始化假图片直到迭代次数到达限制,使用局部物体加强,边界距离限制,软感知损失,BN损失对假图片进行更新;3)先量化神经网络,再利用优化好的假图片,使用蒸馏损失、交叉熵损失训练量化网络,直至到达预定的训练轮数;4)训练结束保留量化网络权重,即得量化后的量化网络。不需要真实数据,可直接从头训练得到量化网络,可在无需特定硬件支持的情况下,在通用硬件平台上实现网络压缩与加速。在通用硬件平台上实现网络压缩与加速。在通用硬件平台上实现网络压缩与加速。

【技术实现步骤摘要】
基于异质生成数据的神经网络无数据量化方法


[0001]本专利技术涉及人工神经网络的压缩与加速,尤其是涉及一种基于异质生成数据的神经网络无数据量化方法。

技术介绍

[0002]近年来,深度神经网络(DNN)在计算机视觉、自然语言处理等许多领域得到广泛的应用。尽管DNN取得巨大的成功,但不断增加的网络大小阻碍DNN在许多资源有限的平台上的部署,如移动电话、嵌入式设备等。为了克服这一困境,学术界和工业界探索多种方法降低DNN的复杂性,以低精度格式表示全精度DNN的网络量化是一个很有前途的方向。
[0003]大多数现有方法属于量化感知训练,在能够获得原始完整训练数据集的前提下执行量化。然而,缺点也源于它对训练数据的依赖。在许多实际情况下,由于隐私和安全问题不断恶化,原始训练数据有时会被禁止访问。例如,人们可能不希望自己的医疗记录被披露给他人,商业材料也不希望通过互联网传播。因此,量化感知训练不再适用。
[0004]如何在无数据情况下获得量化后的DNN,受到学术界和工业界的高度重视。现有的无数据量化研究可以大致分成两类:
[0005]第一类无数据量化方法完全不利用任何数据,而专注于校准参数。例如,DFQ(Nagel M,Baalen M,Blankevoort T,et al.Data

free quantization through weight equalization and bias correction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:1325

1334.)仅利用预先训练的全精度模型的批量归一化层中存储的移位和缩放参数β和γ计算输出上的预期偏差误差。简单的参数校准往往会导致性能严重下降。对于超低精度的情况,这个问题甚至被放大了。例如,当将ResNet

18(He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770

778.)量化为4位时,GDFQ(Xu S,Li H,Zhuang B,et al.Generative low

bitwidth data free quantization[C]//European Conference on Computer Vision.Springer,Cham,2020:1

17.)的附录中只报告ImageNet上DFQ的0.10%top

1精度。
[0006]第二类通过利用合成假图像帮助训练量化网络,一个直观的解决方案是部署一个生成器进行合成训练数据。基于生成器的方法在计算资源上有很大的开销,因为对于不同的比特位设置,引进的生成器必须从头开始训练。ZeroQ(Cai Y,Yao Z,Dong Z,et al.Zeroq:A novel zero shot quantization framework[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:13169

13178.)和DSG(Zhang X,Qin H,Ding Y,et al.Diversifying sample generation for accurate data

free quantization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:15658

15667.)将数据合成描述为一个优化问题,其中从标准高斯分布中提取的随机输入数据被迭代更新以适应真实数据分
布。这条研究路线的好处是,合成图像可以重复使用,以校准或微调不同比特宽度的网络,从而实现资源友好的量化。然而,当将ZeroQ和DSG的特征可视化与真实数据进行比较时,合成图像中仍然存在不可忽略的质量差距,因为传统的高斯合成是为了拟合整个数据集,而忽略更微妙的类决策边界。因此,量化模型通常会出现较大的性能下降。为了确保假图像中的类决策边界,应用感知损失IL(Haroush M,Hubara I,Hoffer E,et al.The knowledge within:Methods for data

free model compression[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:8494

8502.)应用于ZeroQ和DSG,首先选择任意标签,然后进行优化以生成面向标签的图像。因此,假数据显示出可分离的分布,而这样的假图片并不能很好地捕捉到类内异质性。来自同一类的图像通常包含不同的内容;来自同一类真实图片的特征分散很多,具有异质性。ZeroQ+IL和DSG+IL的特征聚集表明同一类别的合成图像大多是同质化的。用这些假图片微调的量化模型无法很好地推广到具有异质性的真实测试数据集。

技术实现思路

[0007]本专利技术的目的是针对当前神经网络无数据量化方法导致的性能下降等问题,提供一种基于异质生成数据的神经网络无数据量化方法。不需要真实数据,可直接从头训练得到量化网络,同时性能更高,尤其是在对小网络进行量化的时候,同时可以在无需特定硬件支持的情况下,在通用硬件平台上实现网络的压缩与加速。
[0008]本专利技术包括以下步骤:
[0009]1)使用标准高斯分布随机初始化假图片;
[0010]2)优化假图片直到迭代次数到达限制,使用局部物体加强、边界距离限制、软感知损失、BN损失对假图片进行更新;
[0011]3)先量化神经网络,再利用步骤2)优化好的假图片,使用蒸馏损失、交叉熵损失训练量化网络,直至到达预定的训练轮数;
[0012]4)训练结束保留量化网络权重,即得量化后的量化网络。
[0013]在步骤1)中,所述使用标准高斯分布随机初始化假图片是从标准高斯分布采样生成和真实图片大小一致的初始化假图片。
[0014]在步骤2)中,所述局部物体加强的具体方法可为:在假图片输入预训练的网络之前以p=50%的概率随机裁减(crop)、缩放(reszie):
[0015][0016]其中,crop
η
表示裁减的比例由均匀分布U(η,1)中采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于异质生成数据的神经网络无数据量化方法,其特征在于包括以下步骤:1)使用标准高斯分布随机初始化假图片;2)优化假图片直到迭代次数到达限制,使用局部物体加强,边界距离限制,软感知损失,BN损失对假图片进行更新;3)先量化神经网络,再利用优化好的假图片,使用蒸馏损失、交叉熵损失训练量化网络,直至到达预定的训练轮数;4)训练结束保留量化网络权重,即得量化后的量化网络。2.如权利要求1所述基于异质生成数据的神经网络无数据量化方法,其特征在于在步骤1)中,所述使用标准高斯分布随机初始化假图片是从标准高斯分布采样生成和真实图片大小一致的初始化假图片。3.如权利要求1所述基于异质生成数据的神经网络无数据量化方法,其特征在于在步骤2)中,所述局部物体加强的具体方法为:在假图片输入预训练的网络之前以p=50%的概率随机裁减(crop)、缩放(reszie):其中,crop
η
表示裁减的比例由均匀分布U(η,1)中采样,表示局部物体加强后的假图片。4.如权利要求1所述基于异质生成数据的神经网络无数据量化方法,其特征在于在步骤2)中,所述边界距离限制的具体方法为:限制假图片在预训练的网络的特征空间中要保持一定的分布:其中,v
F
表示使用预训练网络抽取的特征,如下:其中,M
c
表示和第i张假图同一个类别的所有假图的特征的集合。5.如权利要求1所述基于异质生成数据的神经网络无数据量化方法,其特征在于在步骤2)中,所述软感知损失是为假图片提供一个软目标:其中,U(∈,1)表示在由∈到1的均匀分布,me...

【专利技术属性】
技术研发人员:纪荣嵘钟云山林明宝南宫瑞
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1