基于YOLO的有损-无损混合腔镜视频实时传输方法技术

技术编号:36448464 阅读:14 留言:0更新日期:2023-01-25 22:44
一种基于YOLO的有损

【技术实现步骤摘要】
基于YOLO的有损

无损混合腔镜视频实时传输方法


[0001]本专利技术涉及深度学习视频压缩加速领域,具体涉及一种基于YOLO的有损

无损混合腔镜实时传输方法。

技术介绍

[0002]视频压缩技术是从图像的像素数据蕴含的相关性,即视频数据中的冗余出发,通过空间冗余、时间冗余、符号冗余、结构冗余、视觉冗余五方面进行视频的压缩。随着计算机技术的高速发展,视频压缩技术也实现了进步,从H.264到H.265/HEVC,极大地提高了数字视频的压缩质量和水平。具体研究内容包括:提高压缩效率、提高鲁棒性和错误恢复能力、减少实时的时延、减少信道获取时间和随机接入时延、降低复杂度等。
[0003]除了HEVC技术以外,运动估计也是常用的视频编码与压缩技术,在视频传输中得到了广泛的应用。在视频帧与帧之间的编码预测中,由于相邻帧中的物体存在着一定的相关性。因此,可将每一帧的图像分成若干块或像素单位,并定位出每个块或像素单位在相邻帧中的位置,并得出像素单位之间的空间位置的相对变化或相对偏移量,而这个得到相对变化或者偏移量的过程被称为运动估计。
[0004]运动的相对偏移量和经过运动匹配后得到的预测误差共同发送到解码端,在解码端按照运动偏移量指明的位置,从已经解码的邻近参考帧图像中找到相应的像素单位,和预测误差相加后就得到了像素单位在当前帧中的位置。运动估计技术可以去除帧间冗余度,使得视频传输的比特数大为降低,因此,运动估计是视频压缩处理系统中的一个重要组成部分,在视频传输中起重要作用。
[0005]在远程腔镜手术的场景下,由于无法保证腔镜视频的远程播放端的硬件性能与端网络的速度,因此越小的视频存储量越有利于腔镜视频的实时上传且能有效避免视频播放过程中的延迟、卡顿问题,并且由于远程手术的场景特殊性,数据处理负担过大导致系统识别卡顿和延迟的后果是致命的。
[0006]但是,目前的视频压缩标准是可以应用于各个领域的通用标准,缺少针对腔镜医学图像的视频压缩标准,实时腔镜远程手术要求在算力有限的条件下尽量避免降低视频的清晰度来对视频进行压缩,而且腔镜图像在信息量分布上存在不平衡,手术区域的信息量大,边缘区域信息量小,现有方案缺少自适应压缩技术和保持关键区域的画质清晰。

技术实现思路

[0007]为了克服
技术介绍
的不足,本专利技术提供一种基于YOLO的有损

无损混合腔镜实时传输方法。
[0008]本专利技术所采用的技术方案:一种基于YOLO的有损

无损混合腔镜视频实时传输方法,包括如下步骤:步骤1、腔镜视频的实时采集与下采样;步骤2、将腔镜视频分成静止图像文件,将每一帧的静止图像文件输入到预先训练
好的YOLO模型中,通过YOLO模型识别将腔镜区域分为手术区域以及背景区域,并输出一个与手术区域对应的手术区域mask掩码图;步骤3、根据HEVC视频压缩标准将每个腔镜视频拆分成可变大小的像素单位,根据YOLO模型输出的手术区域mask掩码图,将位于手术区域中的像素单位使用低量化参数值进行高质量编码,而位于背景区域的像素单位使用高质量参数值进行低质量编码;步骤4、将编码后的腔镜视频通过网络传输生成的比特流至远程指导站点,然后根据HEVC视频压缩标准进行解码并查看。
[0009]步骤2中,YOLO模型的骨干网络是VGG16,架构包括卷积、池化、全连接和Softmax层,并用注意力机制SE+CBAM对VGG16获得的特征进行加强,以获得包含更多有效信息的特征层。
[0010]步骤3中,根据HEVC视频压缩标准将每个腔镜视频拆分成可变大小的像素单位,像素单位的大小范围从16
×
16像素到64
×
64像素。
[0011]本专利技术的有益效果是:采用以上方案,通过YOLO的自适应识别的方式,对腔镜视频的手术部位以及背景区域进行实时区分,对手术区域进行无损压缩,对背景区域进行适当的有损压缩,可有效降低视频存储容量,实现腔镜视频的实时上传且能有效避免视频播放过程中的延迟、卡顿问题。
附图说明
[0012]图1为本专利技术实施例的流程示意图。
[0013]图2为本专利技术实施例的压缩示意图。
具体实施方式
[0014]下面结合附图对本专利技术实施例作进一步说明。
[0015]一种基于YOLO的有损

无损混合腔镜视频实时传输方法,包括如下步骤:步骤1、腔镜视频的实时采集与下采样。
[0016]远程手术需要较高的带宽和网络实时性,因此在患者端需采用外置高速数据采集卡对腔镜视频进行实时采集和下采样,这能够有效节约系统处理及传输时间,降低图像传输时延。
[0017]在编码前对腔镜视频进行下采样,通过下采样能够降低视频空间分辨率(像素密度)或时间分辨率(帧频),降低视频的数据量,减轻后续的编码负担。
[0018]步骤2、基于YOLO的手术区域识别算法的构建。
[0019]YOLO模型是常见的目标检测模型,其中,所述YOLO模型的骨干网络是VGG16,架构包括卷积、池化、全连接和Softmax层,并用注意力机制SE+CBAM对VGG16获得的特征进行加强,以获得包含更多有效信息的特征层。
[0020]首先将腔镜视频分成静止图像文件,具体为每秒24帧,然后将每一帧的静止图像文件输入到预先训练好的YOLO模型中,通过YOLO模型识别将腔镜区域分为手术区域以及背景区域,并输出一个与手术区域对应的手术区域mask掩码图。
[0021]步骤3、无损

有损混合腔镜视频的编码。
[0022]根据HEVC视频压缩标准将每个腔镜视频拆分成可变大小的像素单位,像素单位的
大小范围从16
×
16像素到64
×
64像素。采用HEVC视频压缩标准中的标量量化技术,将每个像素单位编码映射成较小的数值。量化是在不降低视觉效果的前提下减少图像编码长度,减少视觉恢复中不必要的信息,这直接影响着视频的编码比特率,一般标量量化器的原理为:FQ = round(y/Qstep),其中,y为输入样本点编码,Qstep为量化步长,FQ为y的量化值,而量化参数(QP)是量化步长Qstep的序号,QP越小,对应的Qstep越小,图像压缩的精度损失越小,反之压缩信息损失越大。
[0023]根据YOLO模型输出的手术区域mask掩码图,将位于手术区域中的像素单位使用低量化参数值进行高质量编码,而位于背景区域的像素单位使用高质量参数值进行低质量编码,示意图见图2。基于这种有损

无损混合压缩方法,对手术区域与背景区域分别进行不同的压缩编码,在避免网络波动时视频传输延迟的同时保证腔镜视频重要手术部位的图像清晰度。
[0024]步骤4、损

有损混合腔镜视频的传输与解码。
[0025]将编码后的腔镜视频通过网络传输生成的比特流至远程指导站点,然后根据HEVC本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于YOLO的有损

无损混合腔镜视频实时传输方法,其特征在于,包括如下步骤:步骤1、腔镜视频的实时采集与下采样;步骤2、将腔镜视频分成静止图像文件,将每一帧的静止图像文件输入到预先训练好的YOLO模型中,通过YOLO模型识别将腔镜区域分为手术区域以及背景区域,并输出一个与手术区域对应的手术区域mask掩码图;步骤3、根据HEVC视频压缩标准将每个腔镜视频拆分成可变大小的像素单位,根据YOLO模型输出的手术区域mask掩码图,将位于手术区域中的像素单位使用低量化参数值进行高质量编码,而位于背景区域的像素单位使用高质量参数值进行低质量编码;步骤4、将编码后的腔镜视频通过网络传输生成的比特流至远程指导站点,然后...

【专利技术属性】
技术研发人员:陈钒萱帅建伟史依李钰杭李家和陈浩满韦超祎何情祖帅真浩王思璇阮煜闻
申请(专利权)人:国科温州研究院温州生物材料与工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1