一种基于码表聚类的深度学习模型压缩方法技术

技术编号：40545722 阅读：4 留言：0更新日期：2024-03-05 19:03

本发明专利技术提供了一种基于码表聚类的深度学习模型压缩方法，属于深度学习中的模型压缩领域。方法包括对模型权重使用码表聚类算法获得码表和索引并重构出压缩后的权重。本发明专利技术利用深度学习模型权重向量的重复性，基于码表聚类算法，获得低内存占用的码表和索引，实现极高的模型压缩率，降低模型存储的内存占用并保持良好的模型性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习中的模型压缩领域，具体涉及一种基于码表聚类的深度学习模型压缩方法。

技术介绍

1、深度学习在过去几年取得了显著进展，已经成为计算机视觉、自然语言处理、语音识别等领域的核心技术。然而，深度学习模型通常具有大量的参数和复杂的结构，这导致了巨大的计算资源消耗和高内存占用。随着深度学习应用逐渐延伸至资源受限的移动设备和边缘计算设备，模型压缩技术因而变得尤为重要。随着物联网设备、智能移动终端的普及以及边缘计算的兴起，对于在低功耗、有限计算能力的硬件上运行复杂的深度学习模型的需求急剧增加。在这些场景中，模型需要在保持高性能的同时，极大地压缩其计算和存储需求。此外，在数据中心和云服务中，模型压缩可以显著降低存储和传输成本，减少能量消耗，并提高系统的扩展性和成本效益。

2、当前深度学习模型压缩的技术路径主要包括以下两种：权重剪枝：通过识别和移除神经网络中的神经元或连接，从而减少模型的存储需求。权重剪枝可以是无结构的(按参数方向删除权重)，也可以是有结构的(按层或通道方向删除权重)。模型量化：通过降低网络权重和激活的精度(例如，从32位浮点数到更低位宽的定点数)，可以显著减少模型大小和计算复杂性。模型剪枝和模型量化都属于有损压缩方法，因此在较高压缩率下可能会因信息损失过多而导致预测性能下降。

技术实现思路

1、为了克服现有模型压缩方法在较高压缩率下模型性能损失严重的问题，本专利技术提出一种基于码表聚类的深度学习模型压缩方法，用低内存占用的码表和索引重构模型权重，来实

2、本专利技术解决其技术问题所采用的技术方案如下：

3、本专利技术首先提供了一种基于码表聚类的深度学习模型压缩方法，包括如下步骤：

4、步骤s1：提取深度学习模型中线性层和卷积层的权重，将这些权重按输入通道方向切分，从而获得一系列权重向量；切分得到的权重向量的长度定义为v；

5、步骤s2：针对各个权重分别设置码表，码表尺寸为k*v，k为码表中码字的数量，使用码表聚类算法进行权重向量聚类，得到最终更新后的码表，权重向量聚类过程中每个权重向量分配得到索引，分配的索引为与该权重向量距离最短的码字在码表中的位置；

6、步骤s3：保存聚类完成的码表和索引以及原始深度学习模型中其他没有被压缩的数据，作为压缩后的模型；当运行压缩后的模型时，针对各个权重，使用其权重向量对应的索引去检索对应的码字，利用这些码字重构出与原始的权重尺寸相同的压缩后权重。

7、作为本专利技术的优选方案，步骤s1的线性层的权重尺寸为[输出通道数，输入通道数]，按照输入通道切分，得到输出通道数*输入通道数/v个权重向量；卷积层的权重尺寸为[输出通道数，输入通道数，卷积核高度，卷积核宽度]，先对卷积层的权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]的卷积层的权重，然后按照输入通道切分，得到输出通道数*输入通道数*卷积核高度*卷积核宽度/v个权重向量。

8、作为本专利技术的优选方案，步骤s2中所述使用码表聚类算法进行权重向量聚类，具体过程为：

9、(2.1)随机选择k个权重向量作为码表的初始码字；

10、(2.2)计算各权重向量到各码字的欧几里得距离；对每个权重向量找到与其距离最短的码字，分配给各权重向量该码字的索引，所述该码字的索引即该码字在码表的位置；

11、计算的欧几里得距离公式为：

12、

13、其中，wm为权重中第m个权重向量，ck为权重对应的码表中第k个码字，d(wm,ck)为wm和ck的欧几里得距离，和分别为wm和ck的第i个值；

14、(2.3)对分配了相同码字的索引的所有权重向量求平均值，作为该索引对应的码字的更新值；所述对相同码字的索引分配到的所有权重向量求平均值的公式为：

15、

16、其中w∈ck为相同码字的索引分配到的权重向量，|w∈ck|为相同码字的索引分配到的权重向量的个数，为该索引对应码字的更新值；

17、(2.4)重复步骤(2.2)-(2.3)，直到码表和索引不再更新，则码表聚类算法完成，得到最终更新后的码表。

18、作为本专利技术的优选方案，步骤s2中各个权重分别使用一个码表。

19、作为本专利技术的优选方案，步骤s3中使用权重向量索引对应的码字来重构与原始权重尺寸相同的压缩后权重，公式为：

20、w′＝c[i]

21、其中w′为压缩后的权重，c为码表，i为总的权重向量对应的索引矩阵。

22、作为本专利技术的优选方案，待压缩的深度学习模型为语言大模型llama-7b；该模型的线性层权重尺寸为[输出通道数，输入通道数]，按照输入通道切分，得到输出通道数*输入通道数/v个权重向量，该模型的卷积层权重尺寸为[输出通道数，输入通道数，卷积核高度，卷积核宽度]；先对卷积层权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]，然后按照输入通道切分，得到(输出通道数*输入通道数*卷积核高度*卷积核宽度/v)个权重向量。

23、本专利技术的有益效果是：

24、1)本专利技术提出的一种基于码表聚类的深度学习模型聚类方法利用码表和索引重建模型权重，减少了模型原始权重的内存占用。由于码表尺寸的灵活性，本专利技术允许用户根据需要调整压缩率和性能之间的平衡。这意味着可以根据特定的应用场景和性能要求，定制模型的压缩程度。本专利技术不仅适用于线性层的权重，还可以扩展到卷积层，使其能够压缩各种类型的深度学习模型。这一点对于压缩由多种类型层组成的复杂模型比较有用。

25、2)本专利技术提出的一种基于码表聚类的深度学习模型聚类方法，其所有的步骤，从权重的提取和聚类到权重的重建都是自动进行的，大大减少了人工干预的需要和可能的人为错误。

26、3)本专利技术提出的一种基于码表聚类的深度学习模型压缩方法，是指使用内存占用较低的码表和索引重建模型权重的方法。当前各类深度学习模型的权重向量具有一定的重复性，这些重复的向量可以使用同一个共享向量来表示，并且使用相同的索引指向该共享向量，多个共享向量构成一个码表。由于码表和索引的内存占用比权重的内存占用低，因此基于码表聚类的模型压缩方法可以实现较高的压缩率。得益于对权重向量重复性的利用，采用码表和索引重构权重的模型能够在大幅压缩的同时，避免严重的性能损失。

本文档来自技高网...

【技术保护点】

1.一种基于码表聚类的深度学习模型压缩方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S1的线性层的权重尺寸为[输出通道数，输入通道数]，按照输入通道切分，得到输出通道数*输入通道数/V个权重向量；卷积层的权重尺寸为[输出通道数，输入通道数，卷积核高度，卷积核宽度]，先对卷积层的权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]的卷积层的权重，然后按照输入通道切分，得到输出通道数*输入通道数*卷积核高度*卷积核宽度/V个权重向量。

3.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S2中所述使用码表聚类算法进行权重向量聚类，具体过程为：

4.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S2中各个权重分别使用一个码表。

5.根据权利要求3所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S2中计算的欧几里得距离公式为：

6.根据权利要求3所述的基于码表聚类的深度学习模型压缩方法，

7.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤S3中使用权重向量索引对应的码字来重构与原始权重尺寸相同的压缩后权重，公式为：

8.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，待压缩的深度学习模型为语言大模型LLaMA-7B。

...

【技术特征摘要】

1.一种基于码表聚类的深度学习模型压缩方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤s1的线性层的权重尺寸为[输出通道数，输入通道数]，按照输入通道切分，得到输出通道数*输入通道数/v个权重向量；卷积层的权重尺寸为[输出通道数，输入通道数，卷积核高度，卷积核宽度]，先对卷积层的权重进行重构得到尺寸为[输出通道数，输入通道数*卷积核高度*卷积核宽度]的卷积层的权重，然后按照输入通道切分，得到输出通道数*输入通道数*卷积核高度*卷积核宽度/v个权重向量。

3.根据权利要求1所述的基于码表聚类的深度学习模型压缩方法，其特征在于，步骤s2中所述使用码表聚类算法进行权重向量聚类，具体过程为：

【专利技术属性】
技术研发人员：黄科杰，邓军灿，沈海斌，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人