一种基于决策边界的深度学习模型压缩方法技术

技术编号:32268604 阅读:12 留言:0更新日期:2022-02-12 19:31
本发明专利技术公开了一种基于决策边界的深度学习模型压缩方法,属于深度学习的模型压缩技术领域。基于决策边界的深度学习模型压缩方法包括以下步骤:步骤一、进行特征映射;步骤二、进行激活函数分段线性化;步骤三、进行子决策区域计算:计算全连接层的子决策区域;步骤四、进行决策网络构建:根据子决策区域计算相应的决策边界,并用于构建新的决策网络。本发明专利技术实现了对全连接层的高效模型压缩,且对于激活函数为分段线性的模型,相较于现有方法往往带来精度降低的问题,本发明专利技术可以实现精度无损压缩。对于激活函数为具有无穷渐近线的其他非线性函数,可以实现可控精度下的模型压缩。可以实现可控精度下的模型压缩。可以实现可控精度下的模型压缩。

【技术实现步骤摘要】
一种基于决策边界的深度学习模型压缩方法


[0001]本专利技术涉及一种基于决策边界的深度学习模型压缩方法,属于深度学习的模型压缩


技术介绍

[0002]深度学习模型是目前人工智能技术的核心算法,依靠大量标注数据,通过层次化建模,实现对复杂问题的非线性拟合。在目前的实践中,深度学习技术已经在图像识别、语音处理等领域取得了巨大的成功,并不断影响着其他行业。
[0003]为了处理复杂的数据,当前的深度学习模型往往具有亿万级别的参数,除了在训练阶段耗费大量的时间与计算资源,在模型的部署与推断过程中,也要占用大量的储存资源并导致推断速度变慢。在计算资源受限的情况下,例如移动端等,则深度学习系统的应用将受到限制。
[0004]深度学习模型压缩主要针对模型参数量过大的问题,目前关于该领域的研究主要集中在如下4点:
[0005](1)矩阵低秩分解:深度学习模型涉及大量矩阵运算,通过将大规模的低秩矩阵分解为数个小矩阵,可以在保证计算结果基本不变的同时大幅减少矩阵的数据量。
[0006](2)模型剪枝与参数量化:模型剪枝的主要出发点是深度学习模型往往会过参数化,使得网络中含有多余的结构与参数,通过重要性等规则,删减多余的网络,从而实现冗余参数、神经元的删减。量化则是指将权重储存的数据类型进行简化,如从浮点数转变为整型,从而实现存储量的减少。这一类方法往往会降低模型的性能。
[0007](3)网络结构搜索(NeuralArchitecture Search,NAS):在给定的模型设计空间,让机器自动的搜索最佳结构,从而实现模型压缩。这类方法在搜索过程中会耗费大量的算力。
[0008](4)知识蒸馏(Knowledge Distillation,KD):通过训练好的教师模型,来训练模型较小的学生模型,使得小模型的性能提升同时只需要更少的模型参数。

技术实现思路

[0009]本专利技术的目的在于提出一种基于决策边界的深度学习模型压缩方法,解决了现有技术中存在的问题。
[0010]一种基于决策边界的深度学习模型压缩方法,所述基于决策边界的深度学习模型压缩方法包括以下步骤:
[0011]步骤一、进行特征映射;
[0012]步骤二、进行激活函数分段线性化;
[0013]步骤三、进行子决策区域计算:计算全连接层的子决策区域;
[0014]步骤四、进行决策网络构建:根据子决策区域计算相应的决策边界,并用于构建新的决策网络。
[0015]进一步的,在步骤一中,若模型压缩的对象为全连接神经网络,则不执行本步骤,直接执行步骤二。
[0016]进一步的,在步骤一中,若对象为cnn模型的全连接部分,则将模型视为两个部分的复合f=g
MLP
(g
cnn
(x0)),把g
cnn
(x0)视为特征映射,构建成新的样本集D

={x

=g
cnn
(x)},然后将其作为全连接神经网络来进行操作。
[0017]进一步的,在步骤二中,若激活函数采用分段线性函数,则不执行本步骤,直接执行步骤三。
[0018]进一步的,在步骤二中,对于激活函数不是分段线性的函数,采用激活函数分段线性化技术,通过找到与激活函数相近的分段线性函数,来进行近似替代,转化为分段线性函数。
[0019]进一步的,在步骤二中,对于激活函数不是分段线性的函数,具体的:
[0020]首先生成激活函数σ(x)的硬近似函数hard

σ(x),具体如下:
[0021][0022][0023][0024]根据所需要的分段数L=n+2以及可接受的误差δ>0,首先选择两个分段点,使得在(

∞,a0],[a
n
,+∞)两个区间上,满足|σ(x)

hard

a(x)|≤δ,而在区间[a0,a
n
]上,直接等距取分割点a1,a2,...,a
n
‑1,并按照点对(a1,hard

σ(a1)),(a2,σ(a2)),(a3,σ(a3)),...,(a
n
‑2,σ(a
n
‑2)),(a
n
‑1,hard

σ(a
n
‑1)),依次连线,即得到了对原激活函数的L=n+2段分段线性近似函数。
[0025]进一步的,在步骤三中,对于激活函数不是分段线性的函数,具体的:本专利技术首先计算其决策边界,具体的,记使用的分段线性激活函数为:
[0026][0027]步骤三一、首先根据训练样本集,遍历样本,即将每一个样本依次输入深度学习模型f(x),但并不执行反向传播过程,同时记录所有全连接层激活函数的激活状态;
[0028]步骤三二、统计所有全连接层神经元的激活状态,按顺序依次排列为整体状态向量S=[s1,s2,...,s
m
],根据步骤三一中的步骤,统计所有样本的整体状态向量,得到样本的整体状态向量集合φ={S1,S2,...S
N
};
[0029]步骤三三、整理φ,将完全相同的整体状态向量合并,得到根据重整后的整体状态向量集合的元素个数q,将拥有相同激活状态S

p
(1≤p≤q)的样本划归为同一个子区间,属于同一个子区间的样本,被同一个向量线性模型g
i
(x)=w
i
x+b
i
(i=1,2,...,q)描述,直接通过全连接层的参数与整体激活状态向量,计算得到其等价的线性模型g
i
(x)=w
i
x+b
i
,记所有的子模型为G={g1,g2,...,g
q
};
[0030]步骤三四、计算所有子模型的决策边界,根据决策边界的定义,即得知对于N分类问题,共有类决策边界,而对于一个子区间上线性模型g
i
(x),计算得到条决策边界,具体为:
[0031][0032]计算所有子区间模型的决策边界,构成决策边界超平面集合计算所有子区间模型的决策边界,构成决策边界超平面集合
[0033]进一步的,在步骤四中,具体为,根据步骤三中得到的决策边界超平面集合DB,构建决策网络,该网络只含有一个隐含层,不同于普通的神经网络,决策网络DNet的输出,是相对于决策边界的位置编码,记为0/1,具体的,对于超平面P
l
与样本x0,直接带入超平面公式计算其输出,若结果为正则记1,为负则记0,
[0034]通过决策网络,得到了数据相对于决策边界集合DB的所有元素的相对位置编码通过决策网络,得到了数据相对于决策边界集合DB的所有元素的相对位置编码根据决策边界的特性,具有相同位置编码的样本,一定属于同一类,
[0035]再遍本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于决策边界的深度学习模型压缩方法,其特征在于,所述基于决策边界的深度学习模型压缩方法包括以下步骤:步骤一、进行特征映射;步骤二、进行激活函数分段线性化;步骤三、进行子决策区域计算:计算全连接层的子决策区域;步骤四、进行决策网络构建:根据子决策区域计算相应的决策边界,并用于构建新的决策网络。2.根据权利要求1所述的一种基于决策边界的深度学习模型压缩方法,其特征在于,在步骤一中,若模型压缩的对象为全连接神经网络,则不执行本步骤,直接执行步骤二。3.根据权利要求1所述的一种基于决策边界的深度学习模型压缩方法,其特征在于,在步骤一中,若对象为cnn模型的全连接部分,则将模型视为两个部分的复合f=g
MLP
(g
cnn
(x0)),把g
cnn
(x0)视为特征映射,构建成新的样本集D

={x

=g
cnn
(x)},然后将其作为全连接神经网络来进行操作。4.根据权利要求1所述的一种基于决策边界的深度学习模型压缩方法,其特征在于,在步骤二中,若激活函数采用分段线性函数,则不执行本步骤,直接执行步骤三。5.根据权利要求1所述的一种基于决策边界的深度学习模型压缩方法,其特征在于,在步骤二中,对于激活函数不是分段线性的函数,采用激活函数分段线性化技术,通过找到与激活函数相近的分段线性函数,来进行近似替代,转化为分段线性函数。6.根据权利要求5所述的一种基于决策边界的深度学习模型压缩方法,其特征在于,在步骤二中,对于激活函数不是分段线性的函数,具体的:首先生成激活函数σ(x)的硬近似函数hard

σ(x),具体如下:σ(x),具体如下:σ(x),具体如下:根据所需要的分段数L=n+2以及可接受的误差δ>0,首先选择两个分段点,使得在(

∞,a0],[a
n
,+∞)两个区间上,满足|σ(x)

hard

σ(x)|≤δ,而在区间[a0,a
n
]上,直接等距取分割点a1,a2,...,a
n
‑1,并按照点对(a1,hard

σ(a1)),(a2,σ(a2)),(a3,σ(a3)),

,(a
n
‑2,σ(a
n
‑2)),(a
n
‑1,hard

σ(a
n
‑1)),依次连线,即得到了对原激活函数的L=n+2段分段线性近似函数。...

【专利技术属性】
技术研发人员:董航程刘国栋刘炳国叶东廖敬骁
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1