当前位置: 首页 > 专利查询>国科温州研究院温州生物材料与工程研究所专利>正文

基于ViT-Slim类的针对腹腔镜视频的压缩方法技术

技术编号：36109765 阅读：22 留言：0更新日期：2022-12-28 14:11

本发明专利技术公开了一种基于ViT

全部详细技术资料下载

【技术实现步骤摘要】
基于ViT
‑
Slim类的针对腹腔镜视频的压缩方法

[0001]本专利技术属于深度学习卷积神经网络模型压缩加速领域，具体涉及一种基于ViT
‑
Slim类的针对腹腔镜视频的压缩方法。

技术介绍

[0002]在对腹腔镜视频进行实时计算机辅诊的实际应用中的发展和部署在很大程度上受到的阻碍。这是由于深度学习模型大小以及计算资源的限制，导致将深度学习模型部署到如移动端的时候就受到一定的限制。
[0003]近年来，卷积神经网络(CNN)已成为各种计算机视觉任务的主要方法。现在的发展趋势呈现出大规模数据集、高端现代GPU和新的网络架构允许开发前所未有的大型CNN模型。例如，从AlexNet、VGGNet和GoogleNet到Resnet，ImageNet分类挑战赢家模型已经从8层发展到100多层。
[0004]然而，较大的CNN虽然具有更强的代表权，但更需要资源。例如，一个152层的ResNet有超过6000万个参数，并且在推断分辨率为224
×
224的图像时需要超过20千兆浮点运算(FLOPs)。在资源有限的平台上，如移动设备、可穿戴设备或物联网(IoT)设备，是不可能负担得起的。
[0005]CNN在实际应用中的部署主要受以下三方面影响：
[0006]1)模型大小的限制：CNN强大的表示能力来自其数百万可训练参数。这些参数以及网络结构信息需要存储在磁盘上，并在推理期间加载到内存中。例如，在ImageNet上存储一个典型的CNN会消耗超过300...

【技术保护点】

【技术特征摘要】
1.一种基于ViT
‑
Slim类的针对腹腔镜视频的压缩方法，其特征在于：其包括以下步骤：1)通过对腹腔镜的图片和视频进行标注，建立腹腔镜检测数据库；2)对视频按帧数进行图像裁剪预处理，并对视频进行实时目标识别；3)搭建用于腹腔镜实时检测的YOLOv4模型；4)构建一个基于ViT
‑
Slim类压缩器；5)利用压缩器压缩基于YOLOv4模型的实时目标检测器，其包括：5.1)利用ViT
‑
Slim类压缩器压缩YOLOv4模型；5.2)利用注意力机制对YOLOv4模型中的特征提取网络部分的深度卷积网络网络到的特征进行优化，以获得更有效底层特征；5.3)通过特征金字塔PANnet获得用于最后检测任务的深层支路特征；5.4)使用YOLO Head对获得的特征进行处理，获得最后的预测结果；5.5)对预测结果解码，计算损失函数；5.6)通过计算交并比得到检测框和真实框的IOU值，通过设置阈值0.5，筛选出符合条件的预测框，然后在原图绘制出检测结果边框。2.根据权利要求1所述的基于ViT
‑
Slim类的针对腹腔镜视频的压缩方法，其特征在于：步骤4)中，包括以下步骤：一、根据掩码值对最终性能的影响对模型结构ViT
‑
Slim类压缩器的重要程度进行排序，其中，f为压缩网络Vit网络，用来学习如何从输入向量得到重要网络参数y，x为原始输入图像向量，y为silm
‑
vit网络的目标输出重要度系数，W为Slim
‑
Vit网络权重，T为激活张量，z为稀疏掩码用于高效去除不需要或者无关的特征信息；二、引入均匀掩蔽来搜索MHSA模块中每个不同头部的最优维度大小，每个MLP模块的维度大小和分层最重要的面片，度大小和分层最重要的面片，度大小和分层最重要的面片，q
i
，K
i
，V
i
表示查询、键和值的线性投影特征，d代表每个自注意力机制头的维度，z
a
∈R
L
×
H
指掩码，对应向量z
al，h
∈R
d
对应于第l层和第h个头，O为网络输出，t
m1
是网络输出O的映射结果；三、在MLP模块加soft mask，t
al
∈R
N
×
D
其中N是补丁的数量，f1，f2指全连接层，z
ml
指第l层的掩码向量，t
el
指中间向量，t
ml
通过全连接层f1映射为高维空间，与L层掩码作用获得中间向量t
el
，t
el
再通过f2投影回低维空间得到下一层结果t
al+1
。3.根据权利要求1所述的基于ViT
‑
Slim类的针对腹腔镜视频的压缩方法，其特征在于：
步骤5.5)中，包括以下步骤：一、首先通过将相应距离值之间的所有欧几里得距离的平方相加，计算非重叠面积S，s＝(L
*
‑
L)2+(T
*
‑
T)2+(R
*
‑
R)2+(B
*
‑
B)2，其中{L，T，R，B}和{L
*
，T
*
，R
*
，B
*
}分别是预测和真实标签的边框中心点坐标真相差异，L和T指从右下角到左和上边界的距离，R和B指从左上角到右和下边界的距离；真实框的{L
*
，T
*
，R
*
，B
*
}计算公式如下：}计算公式如下：}计算公式如下：w
(i)
＝w/s
i
，h
(i)
＝h/s
i

【专利技术属性】
技术研发人员：帅建伟，王思璇，李家和，李钰杭，史依，韦超祎，陈钒萱，陈浩满，何情祖，帅真浩，阮煜闻，
申请(专利权)人：国科温州研究院温州生物材料与工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人