一种无监督视频对象分割方法技术

技术编号：40961022 阅读：18 留言：0更新日期：2024-04-18 20:39

本发明专利技术公开了一种无监督视频对象分割方法，涉及视频对象分割领域。所述方法包括如下步骤：获取视频帧及其对应的深度图像和光流图像；利用轻量化网络和权重独立的特征编码器分别提取三种模态的特征；利用深度图像质量启发加权模块加强深度特征；将加强后的深度图像特征同视频帧特征和光流图像特征一起传入三模态特征对齐融合模块中，融合三模态特征，过滤背景干扰，生成无监督视频对象分割需要的上下文信息；经过上采样和拼接操作得到目标对象分割结果；所采用的两个模块和一种轻量化设计充分解决了辅助模态质量参差不齐对网络稳定性的影响，同时整合深度信息使模型在复杂背景下更好地分割目标物体，大幅提高了无监督视频对象分割的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习与计算机视觉领域，具体涉及一种无监督视频对象分割方法。

技术介绍

1、视频对象分割可以被定义为将前景对象与背景区域进行分离的二值标记问题。由于其在监控视频事件提取、动作识别、视频摘要、视频编辑和自动驾驶等实际应用中的强大适用性，它被广泛应用于许多视觉系统中。许多解决视频对象分割任务的工作以半监督形式存在，即给出待分割对象的一帧或者多帧人工标注，逐帧预测待分割对象的掩码。然而，半监督的形式不利于实际的部署和应用。因此，越来越多的研究人员将研究重心转向完全无监督的视频对象分割方法中。

2、早期的无监督视频对象分割模型依赖于手工制作的特征进行启发式分割推断，例如长稀疏点轨迹、背景减法以及超像素光流等。然而，由于缺乏语义信息和对深层特征的理解，这些传统模型在动态和复杂的场景中表现出有限的泛化能力和较低的精度。最近，一些基于深度学习的方法利用了视频的时空一致性，采用全局共同注意机制捕捉频繁出现的显著对象，进行视频对象分割。尽管这些方法取得了性能提高，但仍存在以下问题。首先，这些方法过度依赖于从视频帧对应的光流图像...

【技术保护点】

1.一种无监督视频对象分割方法，其特征在于包括以下步骤：

2.如权利要求1所述的一种无监督视频对象分割方法，其特征在于，利用所述辅助模态轻量化特征提取网络提取五个层级的深度图像特征和光流图像特征，分别记为和利用所述三流网络权重独立的特征编码器提取五个层级的视频帧特征记为所述辅助模态轻量化特征提取网络在双向残差瓶颈块的基础上构建了一个具有较少堆叠块和较少通道数的主干网络；所述主干网络包含五层，每一层的输入图像大小、输出图像大小、双向残差瓶颈块、输出通道数、瓶颈块重复次数、层次步长分别为：[448×448×1、256×256×1、3、16、1、2]，[256×256×16、128...

【技术特征摘要】

1.一种无监督视频对象分割方法，其特征在于包括以下步骤：

3.如权利要求1所述的一种无监督视频对象分割方法，其特征在于，采用所述深度图像质量启发的跨模态特征加权模块对从深度图像提取的特征进行强化；该模块由跨模态图像质量启发加权子模块和跨模态全局特征加权子模块组成，它们分别产生加权系数λi和加权矩阵βi，其中λi是标量，用于确定深度模态对整体特征的贡献，βi是空间注意力图，明确了深度图像的重要特征区域。

4.如权利要求1所述的一种无监督视频对象分割方法，其特征在于，采用所述三模态特征对齐融合模块将经过增强的深度图像特征与视频帧特征及光流特征进行跨模态融合；所述三模态特征对齐融合模块包含三模态特征对齐子模块和三模态特征融合子模块，它们分别在通道和空间上进行特征对齐并在三模态融合过程中利用不同模态的公共信息来抑制噪声对三模态特征融合的干扰。

5.如权利要求3所述的一种无监督视频对象分割方法，其特征在于，所述跨模态图像质量启发加权子模块用于生成加权系数λi，决定深度模态信息对整体特征的贡献；所述子模块采用多尺度算法，通过步长为4的最大池化法对第一层的三模态特征进行下采样，分别得到和再经由1×1卷积对第一层的三模态特征及下采样后的三个特征进行加强，以捕捉更多和边缘相关的信息；所述第一层的三模态特征分别为：深度图像特征光流图像特征和视频帧特征进一步地，通过预设的相似度计算方法分别对和和和和四组特征进行相似度计算，得到四个相似度向量mr,d、mr,f、mr,f′和mr,d′，再经由通道重组、多层感知机mlp和分离函数fsplit得到五个层级的图...

【专利技术属性】
技术研发人员：张云佐，于璞泽，王双双，刘婷，井海明，甄嘉闻，杨月辉，
申请(专利权)人：石家庄铁道大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人