一种全局特征增强的半监督视频目标分割方法及系统技术方案

技术编号：40981725 阅读：2 留言：0更新日期：2024-04-18 21:27

本发明专利技术公开了一种全局特征增强的半监督视频目标分割方法。其实现方案如下，首先获取视频序列数据集和分割标签，并对数据集视频序列进行数据扩充与处理，其次构建分割模型，并构建损失函数用以训练分割模型，最后利用训练好的分割模型进行视频目标分割。本发明专利技术通过设计全局上下文感知模块，引入两个全局存储单元对视频序列帧内及帧间像素的全局依赖关系进行建模。本发明专利技术的方法减少了计算量的同时，提高了特征匹配的鲁棒性并能在具有挑战性的场景下对视频序列中相似目标进行准确分割。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，具体而言，涉及一种全局特征增强的半监督视频目标分割方法及系统。

技术介绍

1、视频目标分割的主要任务是从视频序列中持续地分割出感兴趣目标对象。本文方法聚焦半监督视频目标分割，其中目标实例由给定的第一帧精确分割掩码定义，并在剩余视频帧中预测目标实例的分割结果。视频目标分割是计算机视觉中最具有挑战性的任务之一，具有广泛的应用价值，可用于交互式视频编辑、增强现实和自动驾驶等领域。

2、近年来，随着深度学习和卷积网络的快速发展，出现了越来越多基于卷积网络的视频目标分割方法。研究者们更加青睐基于时空记忆网络的视频目标分割方法，其不仅在分割速度上占据了优势，而且还取得了不错的精度。2019年，seoung wug oh等首次提出了时空记忆网络(seoung wug oh,joon-young lee,ning xu,seon joo kim.video objectsegmentation using space-time memory networks.iccv 2019:9225-9234.)，该方法将当前待分割视频帧作为查询帧,将先前已分割视频帧及其分割掩码作为记忆帧,通过在两者之间进行稠密匹配以获取像素级的记忆内容。

3、然而，基于时空记忆网络的方法存在相似目标误匹配的问题。近年来，一些基于时空记忆网络的方法尝试解决相似目标误匹配的问题，以实现复杂场景下的精确视频目标分割。hongje seong等利用高斯核将匹配范围限定在一个局部区域内，提出了kmn方法(hongje seon

技术实现思路

1、针对上述现有技术存在的不足，本专利技术提供了一种全局特征增强的半监督视频目标分割方法及系统，接受记忆帧序列和当前帧的输入，通过基于时空记忆网络的stcn(hokei cheng,yu-wing tai,chi-keung tang.rethinking space-time networks withimproved memory coverage for efficient video object segmentation.neurips2021:11781-11794.)编码器提取特征信息，其中包括key编码器和value编码器；开发了一个全局上下文感知模块，其利用两个全局存储单元建模key编码器特征的全局依赖关系，捕获视频帧帧间及帧内的全局上下文信息，学习更强的全局特征表示；时空记忆读取模块获得当前查询帧的value特征；解码器解码当前查询帧的value特征获得精细分割掩码。

2、为了实现上述目的，本专利技术提供了一种全局特征增强的半监督视频目标分割方法及系统，包括以下步骤；

3、s1、获取数据集与分割标签：

4、获取视频目标分割数据集和静态图像数据集及这两个数据集所对应的分割标签，将数据集中的每一张图像及对应的分割标签组成一个图像对。

5、s2、数据扩充与处理。具体包括以下步骤：

6、s21、针对从步骤s1获取的静态图像数据集和相应的分割标签，进行归一化处理，为了生成合成视频训练样本，重复以下流程：

7、s211、将图像对的短边缩小至w像素，同时按比例缩小长边；然后，随机裁剪图像对至h×w像素大小，其中w代表裁剪后图像的宽度，h代表裁剪后图像的高度，w和h均为正整数；

8、s212、对裁剪后的图像对依次应用随机缩放、随机水平翻转、随机颜色抖动和随机灰度转换，从而得到增强后的图像对；

9、s213、将步骤s212重复三次，以获得图像对的三个增强样本；这三个增强样本组成了一个合成视频训练样本。

10、s22、针对从步骤s1获取的视频目标分割数据集中的每个视频及其对应的分割标签，进行归一化处理，为了生成真实视频训练样本，重复以下流程：

11、s221、随机选择三个图像对，这些图像对是从该视频中获取的，并带有相应的分割标签；

12、s222、将三个图像对的短边缩小至w像素，同时按比例缩小长边；然后，随机裁剪这三个图像对至h×w像素大小，其中w和h的含义和取值与步骤s21相同；

13、s223、对这三个图像对依次应用随机裁剪、颜色抖动和随机灰度转换，从而得到增强后的三个图像对；这三个增强图像对组成了一个真实视频训练样本。

14、s3、构建分割模型。该分割模型由记忆池、编码器、全局上下文感知模块(globalcontext aware module,gcam)、时空记忆读取模块以及解码器组成，具体包括如下步骤：

15、s31、构建记忆池，将视频序列中的第1帧、第τ+1帧、第2τ+1帧、……、第tτ+1帧及其对应的分割标签放入记忆池中，其中τ为正整数，根据实际视频序列长度，τ取值范围为[1,50]，τc为当前待分割帧的相对位置，符号表示向下取整；

16、s32、构建key编码器，使用卷积神经网络作为key编码器，包括当前帧和记忆帧依次经过该编码器的前四层，其中第二层输出分别为fq2和fm2，第三层的输出分别为fq3和fm3，第四层的输出分别为fq4和fm4，并通过映射卷积分别处理fq4和fm4最后分别得到kq和km；

17、s33、构建value编码器，value编码器由卷积神经网络和特征复用器组成，其中特征复用器由一个c本文档来自技高网...

【技术保护点】

1.一种全局特征增强的半监督视频目标分割方法，其特征在于，所述方法由计算机执行，包括以下步骤：

2.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤S1的具体实现过程如下：

3.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤S2的具体实现过程如下：

4.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤S3的具体实现过程如下：

5.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤S4的具体实现过程如下：

6.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤S5的具体实现过程如下：

7.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤S6的具体实现过程如下：

8.一种全局特征增强的半监督视频目标分割系统，其特征在于，包含以下几个单元：

【技术特征摘要】

1.一种全局特征增强的半监督视频目标分割方法，其特征在于，所述方法由计算机执行，包括以下步骤：

2.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤s1的具体实现过程如下：

3.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤s2的具体实现过程如下：

4.如权利要求1所述的一种全局特征增强的半监督视频目标分割方法，其特征在于，步骤s3的具体实现过程如下...

【专利技术属性】
技术研发人员：潘祖望，桂彦，
申请(专利权)人：长沙理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人