当前位置: 首页 > 专利查询>天津大学专利>正文

基于神经网络自适应膨胀剪枝的视觉对象分类方法技术

技术编号:35563058 阅读:16 留言:0更新日期:2022-11-12 15:46
本发明专利技术公开一种基于神经网络自适应膨胀剪枝的视觉对象分类方法,包括:运用自适应膨胀算法扩充预训练神经网络:将视觉分类图像作为输入,根据不同层对视觉对象分类任务的贡献将重要的层进行了膨胀,得到在视觉对象分类任务上符合预期的膨胀网络;采用随机结构采样算法训练膨胀网络,使膨胀网络学习为各种剪枝结构生成不同的权重;对经过随机结构采样算法训练后的膨胀网络进行剪枝,得到选择性能符合要求的网络作为压缩后的精简网络;将精简网络布置于处理设备中对视觉对象分类处理。本发明专利技术通过压缩原始网络来构建轻量化的视觉对象分类网络,使得该压缩后的精简网络在参数较少的情况下,对不同类别的视觉对象的识别准确率保持基本不变。基本不变。基本不变。

【技术实现步骤摘要】
基于神经网络自适应膨胀剪枝的视觉对象分类方法


[0001]本专利技术涉及视觉对象分类
,特别是涉及一种基于神经网络自适应膨胀剪枝的视觉对象分类方法。

技术介绍

[0002]对象分类主要指计算机对输入的图像进行定量分析并正确给出图像所属的类别。对象分类不仅可代替人的视觉判读,且有助于通过图片更快的搜索有用的信息。传统对象分类需要人工设计特征提取器,这需要相关人员具有丰富的专业知识和实践经验,且每种对象分类都局限于固定的图像数据,从而降低了泛化能力和鲁棒性。随着深度学习和人工智能算法的发展,基于卷积神经网络(CNN)的视觉对象分类得到了空前发展。相比于传统对象分类,基于神经网络的视觉对象分类方法依赖数据驱动,从大量样本的学习中提取各种类别的特征表示,可有效提高对象分类的准确率,甚至可以超越人眼的识别水平。
[0003]因此,基于神经网络的视觉对象分类方法有望广泛应用于生产生活。例如在车辆驾驶过程中,安全是最重要的。但由于人眼视觉视角的限制,在行车过程中会存在视觉盲区,尤其在注意力不集中的时候还可能会引发事故,基于神经网络的视觉对象分类可时刻准确地将行车过程中各个方向存在的行人、交通信号灯、车辆等对象识别并反馈给驾驶员,驾驶员只需根据路况做出行驶决策。其次,在医疗领域目前对各种医学图像(X照肺部图片等)的诊断都是由医学专家人工筛查,但专家水平的差异可能会导致有些病情不能被及时发现;此外,很多地方医院由于专业人才的缺失导致许多患者不得不异地就医,这不仅影响医院的声誉,且意味着患者要付出更多额外开销,甚至有些患者因为各种原因不能及时得到治疗。基于神经网络的视觉对象分类不仅可辅助专家对是否患病以及病情严重程度进行诊断,且地方医院只需购入相关设备就可方便当地居民。
[0004]但目前由于视觉对象分类网络模型参数过于庞大,对硬件内存和计算资源的消耗很大,且模型预测时间较长,难以应用于实践。尽管目前已经有学者针对这一问题提出了不同的网络压缩方案,但现有的通道修剪方法有两个局限性:首先,Rethinking

network

pruning已经证明CNN模型的结构将决定模型的性能,而不是继承的“重要”权重。但是,目前通道剪枝方法是在原始网络的基础上去除通道,因此剪枝网络是原始网络的一个子结构。换句话说,原始网络中每一层的通道数限制了剪枝网络的多样性。其次,Visualizing and Understanding指出网络的不同层之间存在功能差异,这导致层间权重的Lp范数存在显着差异。但是,基于全局重要性(例如L2范数)约束去除通道的修剪方法倾向于在Lp范数较低的层中去除更多的通道,因此得到的剪枝网络的结构是唯一的,进一步限制了剪枝网络的多样性。
[0005]总之,目前基于神经网络的视觉对象分类方法虽然达到了不俗的精度,但局限于实验室的理想环境。在实际工程应用中,由于资金、设备性能等的限制,无法直接将复杂度高、具有大量参数神经网络投入到对象识别应用系统中。

技术实现思路

[0006]本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种基于神经网络自适应膨胀剪枝的视觉对象分类方法,旨在解决基于神经网络的视觉对象分类算法复杂度高、检测时间长、压缩后的精简网络结构单一的问题。
[0007]为实现本专利技术的目的所采用的技术方案是:
[0008]一种基于神经网络自适应膨胀剪枝的视觉对象分类方法,包括步骤:
[0009]运用自适应膨胀算法扩充预训练神经网络:将视觉分类图像作为输入,根据不同层对视觉对象分类任务的贡献将重要的层进行了膨胀,得到一个在视觉对象分类任务上符合预期的膨胀网络;
[0010]采用随机结构采样算法训练膨胀网络,使膨胀网络学习为各种剪枝结构生成不同的权重;
[0011]对经过随机结构采样算法训练后的膨胀网络进行剪枝,得到选择性能符合要求的网络作为压缩后的精简网络;
[0012]将获得的精简网络布置于处理设备中,对视觉对象分类处理,得到分类处理结果。
[0013]本专利技术通过压缩原始网络来构建一个轻量化的视觉对象分类网络,使得该压缩后的精简网络在参数较少的情况下,对不同类别的视觉对象的识别准确率保持基本不变。
附图说明
[0014]图1是本专利技术的基于神经网络自适应膨胀剪枝的视觉对象分类方法的流程图。
[0015]图2是本专利技术的膨胀预训练网络的示意图。
[0016]图3是本专利技术的随机结构采样算法训练膨胀网络的示意图。
具体实施方式
[0017]以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0018]本专利技术首先运用自适应膨胀算法提取视觉对象的特征,在原始神经网络的基础上生成一个膨胀网络来释放剪枝结构的多样性。其次,将视觉分类图像作为输入,采用随机结构采样算法训练膨胀网络,随机结构采样算中,每个mini

batch中剪枝网络的结构是用随机函数random生成的。该算法可以使膨胀网络具有足够的泛化能力,从而为各种剪枝网络生成合理的权重。最后,为了释放剪枝结构的唯一确定性,运用进化算法搜索若干个剪枝结构,并从中选择在视觉分类图像上准确率最高的剪枝网络作为压缩后的精简网络。
[0019]本专利技术提出了自适应膨胀算法,根据不同层对视觉对象分类任务的贡献将重要的层进行了膨胀,并将膨胀网络作为后续剪枝的标准;突破了原始网络中每层通道数上限的限制,释放了适配硬件平台资源的剪枝网络的结构多样性,为视觉对象分类网络的结构提供了更多的可能。
[0020]本专利技术通过设计进化模块打破了剪枝结构由权重文件唯一确定的现状,而且通过比较不同剪枝网络在视觉分类图像上的性能找到了满足硬件要求和视觉对象分类准确率最高的精简网络。
[0021]如图1所示,本专利技术实施例的基于神经网络自适应膨胀剪枝的视觉对象分类方法,
采用以下步骤:
[0022]S1.运用自适应膨胀算法扩充预训练神经网络:将视觉分类图像作为输入,根据不同层对视觉对象分类任务的贡献将重要的层进行了膨胀,得到一个在视觉对象分类任务上符合预期的膨胀网络;
[0023]目前主流的神经网络通道剪枝方法是在原始网络的基础上去除通道,因此,原始网络中每一层的通道数限制了剪枝网络结构上的多样性。为了解决这个问题,本申请设计了自适应膨胀算法来扩充预训练神经网络。因为原始网络每一层都学习了视觉对象不同的类别特征,因此每一层的重要性是不同的,因此,在自适应膨胀的过程中,自适应膨胀并不是暴力地将原始网络每一层通道数同时扩大一定的倍数,而是选择性地对某些层进行膨胀。通过自适应膨胀算法不仅丰富了剪枝网络的结构多样性,而且还考虑了神经网络不同层对视觉类别特征提取的差异。
[0024]示例性的,自适应膨胀算法通过以下步骤进行自适应膨胀处理:
[0025]S11,将视觉分类图像作为输入训练原始神经网络,神经网络通过提取不同视觉类别对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于神经网络自适应膨胀剪枝的视觉对象分类方法,其特征在于,包括以下步骤:运用自适应膨胀算法扩充预训练神经网络:将视觉分类图像作为输入,根据不同层对视觉对象分类任务的贡献将重要的层进行了膨胀,得到一个在视觉对象分类任务上符合预期的膨胀网络;采用随机结构采样算法训练膨胀网络,使膨胀网络学习为各种剪枝结构生成不同的权重;对经过随机结构采样算法训练后的膨胀网络进行剪枝,得到选择性能符合要求的网络作为压缩后的精简网络;将获得的精简网络布置于处理设备中,对视觉对象分类处理,得到分类处理结果。2.根据权利要求1所述基于神经网络自适应膨胀剪枝的视觉对象分类方法,其特征在于,其中,运用自适应膨胀算法扩充预训练神经网络,包括:S11,将视觉分类图像作为输入训练原始神经网络,神经网络通过提取不同视觉类别对象的特征来更新模型参数;训练后,用BN层学习到的γ作为每个通道对视觉对象分类任务贡献的度量;BN层的计算过程如下式所示,BN层的计算过程如下式所示,其中,x是视觉分类图像经过卷积运算得到的特征图,假设某一个卷积层有f个卷积核,每张分类图像经过一次卷积运算得到的特征图大小为h*w,输入卷积层的图像有m张,则输出x是一个四维矩阵(m,f,w,h),x
(i)
表示第i张分类图像经过f次卷积运算得到的特征图,是一个大小为(f,w,h)的三维矩阵,μ和σ分别是x
(i)
的平均值和标准差,是一个大小为w*h的张量,表示对x
(i)
进行归一化操作,表示对进行额外的调整;γ和β是需要在训练过程中优化的参数,大小同样为w*h;预训练模型每一层对视觉对象分类任务的贡献由该层的γ之和来衡量,称为每一层的重要性系数,表示为I(I1,I2,...I
l
);S12,将重要性系数的阈值n初始化为所有层中重要性系数的最小值;将膨胀系数m初始化为所有层中最小的重要性系数的倒数;S13,根据每一层对视觉对象分类任务的贡献来压缩或膨胀预训练模型的通道数,从而构建一个膨胀网络;逐层判断重要性系数与重要性系数阈值n之间的关系,若某一层的重要性系数小于n(I
i
<n),表明该层已达到当前知识泛化的上限,提取不同视觉类别对象的特征,包括方向、频率和颜色,将该层通道数压缩为原来的1/(m*I
i
);相反,将该层通道数膨胀为原来的m*I
i
;将1/(m*I
i
)和m*I
i
视为与每一层重要性系数相关的膨胀因子,膨胀后的网络由下式表示:E(e1,e1,...e1)=M(m1,m1,...m
l
)*A(a1,a2,...a
l
)
e
i
=m
i
*a
i
(i=1,2,...l)其中,M是一个包含l个元素的向量,膨胀因子m
i
的值为1/(m*I
i
)或m*I
i
,A(a1,a2,...a
l
)表示预训练模型每一层a
i
(1<=i<...

【专利技术属性】
技术研发人员:陈仁海郑丽邢猛冯志勇
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1