基于ViT-Slim类的针对腹腔镜视频的压缩方法技术

技术编号:36109765 阅读:22 留言:0更新日期:2022-12-28 14:11
本发明专利技术公开了一种基于ViT

【技术实现步骤摘要】
基于ViT

Slim类的针对腹腔镜视频的压缩方法


[0001]本专利技术属于深度学习卷积神经网络模型压缩加速领域,具体涉及一种基于ViT

Slim类的针对腹腔镜视频的压缩方法。

技术介绍

[0002]在对腹腔镜视频进行实时计算机辅诊的实际应用中的发展和部署在很大程度上受到的阻碍。这是由于深度学习模型大小以及计算资源的限制,导致将深度学习模型部署到如移动端的时候就受到一定的限制。
[0003]近年来,卷积神经网络(CNN)已成为各种计算机视觉任务的主要方法。现在的发展趋势呈现出大规模数据集、高端现代GPU和新的网络架构允许开发前所未有的大型CNN模型。例如,从AlexNet、VGGNet和GoogleNet到Resnet,ImageNet分类挑战赢家模型已经从8层发展到100多层。
[0004]然而,较大的CNN虽然具有更强的代表权,但更需要资源。例如,一个152层的ResNet有超过6000万个参数,并且在推断分辨率为224
×
224的图像时需要超过20千兆浮点运算(FLOPs)。在资源有限的平台上,如移动设备、可穿戴设备或物联网(IoT)设备,是不可能负担得起的。
[0005]CNN在实际应用中的部署主要受以下三方面影响:
[0006]1)模型大小的限制:CNN强大的表示能力来自其数百万可训练参数。这些参数以及网络结构信息需要存储在磁盘上,并在推理期间加载到内存中。例如,在ImageNet上存储一个典型的CNN会消耗超过300MB的空间,这对嵌入式设备来说是一个巨大的资源负担。
[0007]2)运行时内存:在推理期间,CNN的中间激活/响应甚至可能比存储模型参数占用更多内存空间,即使批量大小为1。这对于高端GPU来说不是问题,但对于许多计算能力较低的应用程序来说,这是负担不起的。
[0008]3)计算操作数:卷积操作在高分辨率图像上计算量很大。大型CNN在移动设备上处理一张图像可能需要几分钟的时间,这使得在实际应用中采用它是不现实的。
[0009]减少大型CNN资源消耗的一个方向是稀疏网络。稀疏性可以施加在不同层次的结构上,这会产生相当大的模型大小压缩和推理加速。然而,这些方法通常需要特殊的软件/硬件加速器来获得内存增益或节省时间。
[0010]网络剪枝是一种常用的神经网络压缩领域方法,其具体包括权重修剪、硬件不可知滤波器剪枝、硬件感知滤波器剪枝与层修剪。腹腔镜的计算机处理思路主要也需要依靠卷积网络完成,其网络结构的层数之多与算法运行之复杂往往会带来更多的延迟消耗。而修剪参数的数或FLOPs的减少都难以避免延迟(即直接测量)消耗。而层修剪通过修剪最不重要的层并微调较浅的模型则能减少其受模型深度的限制,从而避免一部分的延迟消耗。
[0011]网络瘦身是目前一种比较好的剪枝方案,它解决了在有限资源下部署大型CNN时所面临的挑战。该方法的核心思路就是对于卷积神经网络,每层每个卷积核都用一个重要性系数去表征它对最后预测结果的贡献程度,如果这个系数接近于0,就认为它是没有贡献
并可以被去掉的。修剪后,与最初的宽网络相比,生成的窄网络在模型大小、运行时内存和计算操作方面更加紧凑。上述过程可以重复多次,产生一个多channel网络瘦身方案,从而使网络更加紧凑。在几个Benchmark数据集和不同网络结构上的实验表明,可以获得CNN模型,其模式大小压缩高达20倍,计算操作减少了5倍,同时达到相同或更高的精度。此外,方法使用传统的硬件和深度学习软件包实现了模型压缩和推理加速,因为得到的较窄模型没有任何稀疏存储格式或计算操作。
[0012]目前还没有针对这种高分辨率的医学图像如腹腔镜的处理方案,并且还没有腹腔镜视频的压缩剪枝方案算法的工作,尤其是还需要处理视频流的腹腔镜实时目标检测任务。
[0013]从算法性能考虑,目前的模型压缩瘦身的大多数研究都吃从卷积结构出发,如使用基于梯度的方法更新掩码,使其与每个操作选择相关。另外,目前的网络瘦身方案也还存在由于参数效率低以及网络的搜索空间受限而导致的压缩后精度损失过大的问题。

技术实现思路

[0014]本专利技术针对现有技术的不足,提供了一种基于ViT

Slim类的针对腹腔镜视频的压缩方法,该算法针对腹腔镜数据特点,设计了适合的压缩结构,在更自由的搜索空间中找到更合适的模型大小和尺度。将ViT

Slim类算法作为压缩器,克服了现有方案使用Slim压缩器由于搜索空间受限而导致的压缩后性能损失大和模型压缩率一般的问题。
[0015]为实现上述目的,本专利技术提供了如下技术方案:
[0016]一种基于ViT

Slim类的针对腹腔镜视频的压缩方法,其包括以下步骤:
[0017]1)通过对腹腔镜的图片和视频进行标注,建立腹腔镜检测数据库;
[0018]2)对视频按帧数进行图像裁剪预处理,并对视频进行实时目标识别;
[0019]3)搭建用于腹腔镜实时检测的YOLOv4模型;
[0020]4)构建一个基于ViT

Slim类压缩器;
[0021]5)利用压缩器压缩基于YOLOv4模型的实时目标检测器,其包括:
[0022]5.1)利用ViT

Slim类压缩器压缩YOLOv4模型;
[0023]5.2)利用注意力机制对YOLOv4模型中的特征提取网络部分的深度卷积网络网络到的特征进行优化,以获得更有效底层特征;
[0024]5.3)通过特征金字塔PANnet获得用于最后检测任务的深层支路特征;
[0025]5.4)使用YOLO Head对获得的特征进行处理,获得最后的预测结果;
[0026]5.5)对预测结果解码,计算损失函数;
[0027]5.6)通过计算交并比得到检测框和真实框的IOU值,通过设置阈值0.5,筛选出符合条件的预测框,然后在原图绘制出检测结果边框。
[0028]步骤4)中,包括以下步骤:
[0029]一、根据掩码值对最终性能的影响对模型结构ViT

Slim类压缩器的重要程度进行排序,
[0030][0031]其中,f为压缩网络Vit网络,用来学习如何从输入向量得到重要网络参数y,x为原
始输入图像向量,y为silm

vit网络的目标输出重要度系数,W为Slim

Vit网络权重,T为激活张量,z为稀疏掩码用于高效去除不需要或者无关的特征信息;
[0032]二、引入均匀掩蔽来搜索MHSA模块中每个不同头部的最优维度大小,每个MLP模块的维度大小和分层最重要的面片,
[0033][0034][0035][0036]q
i
,K
i
,V
i
表示查询、键和值的线性投影特征,d代表每个自注意力机制头的维度,z
a<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ViT

Slim类的针对腹腔镜视频的压缩方法,其特征在于:其包括以下步骤:1)通过对腹腔镜的图片和视频进行标注,建立腹腔镜检测数据库;2)对视频按帧数进行图像裁剪预处理,并对视频进行实时目标识别;3)搭建用于腹腔镜实时检测的YOLOv4模型;4)构建一个基于ViT

Slim类压缩器;5)利用压缩器压缩基于YOLOv4模型的实时目标检测器,其包括:5.1)利用ViT

Slim类压缩器压缩YOLOv4模型;5.2)利用注意力机制对YOLOv4模型中的特征提取网络部分的深度卷积网络网络到的特征进行优化,以获得更有效底层特征;5.3)通过特征金字塔PANnet获得用于最后检测任务的深层支路特征;5.4)使用YOLO Head对获得的特征进行处理,获得最后的预测结果;5.5)对预测结果解码,计算损失函数;5.6)通过计算交并比得到检测框和真实框的IOU值,通过设置阈值0.5,筛选出符合条件的预测框,然后在原图绘制出检测结果边框。2.根据权利要求1所述的基于ViT

Slim类的针对腹腔镜视频的压缩方法,其特征在于:步骤4)中,包括以下步骤:一、根据掩码值对最终性能的影响对模型结构ViT

Slim类压缩器的重要程度进行排序,其中,f为压缩网络Vit网络,用来学习如何从输入向量得到重要网络参数y,x为原始输入图像向量,y为silm

vit网络的目标输出重要度系数,W为Slim

Vit网络权重,T为激活张量,z为稀疏掩码用于高效去除不需要或者无关的特征信息;二、引入均匀掩蔽来搜索MHSA模块中每个不同头部的最优维度大小,每个MLP模块的维度大小和分层最重要的面片,度大小和分层最重要的面片,度大小和分层最重要的面片,q
i
,K
i
,V
i
表示查询、键和值的线性投影特征,d代表每个自注意力机制头的维度,z
a
∈R
L
×
H
指掩码,对应向量z
al,h
∈R
d
对应于第l层和第h个头,O为网络输出,t
m1
是网络输出O的映射结果;三、在MLP模块加soft mask,t
al
∈R
N
×
D
其中N是补丁的数量,f1,f2指全连接层,z
ml
指第l层的掩码向量,t
el
指中间向量,t
ml
通过全连接层f1映射为高维空间,与L层掩码作用获得中间向量t
el
,t
el
再通过f2投影回低维空间得到下一层结果t
al+1
。3.根据权利要求1所述的基于ViT

Slim类的针对腹腔镜视频的压缩方法,其特征在于:
步骤5.5)中,包括以下步骤:一、首先通过将相应距离值之间的所有欧几里得距离的平方相加,计算非重叠面积S,s=(L
*

L)2+(T
*

T)2+(R
*

R)2+(B
*

B)2,其中{L,T,R,B}和{L
*
,T
*
,R
*
,B
*
}分别是预测和真实标签的边框中心点坐标真相差异,L和T指从右下角到左和上边界的距离,R和B指从左上角到右和下边界的距离;真实框的{L
*
,T
*
,R
*
,B
*
}计算公式如下:}计算公式如下:}计算公式如下:w
(i)
=w/s
i
,h
(i)
=h/s
i

【专利技术属性】
技术研发人员:帅建伟王思璇李家和李钰杭史依韦超祎陈钒萱陈浩满何情祖帅真浩阮煜闻
申请(专利权)人:国科温州研究院温州生物材料与工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1