一种基于双重调制的视频目标分割方法技术

技术编号:21915301 阅读:27 留言:0更新日期:2019-08-21 12:49
本发明专利技术公开了一种基于双重调制的视频目标分割方法,包括步骤一:将当前视频帧图像输入至调制好的分割网络中,输出当前视频帧图像中分割目标对应的特征图;步骤二:将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图,完成目标分割;所述特征注意金字塔模块借助于该输入的特征图的全局上下文表示,来学习得到输入的特征图的不同尺度信息,得到分割目标对应的最终特征图。

A Video Target Segmentation Method Based on Dual Modulation

【技术实现步骤摘要】
一种基于双重调制的视频目标分割方法
本专利技术涉及视频目标分割领域,尤其是设计了一种基于双重调制的视频目标分割方法。
技术介绍
视觉目标分割是计算机视觉中的一项基本任务,它有着广泛的应用,例如:视频监控、无人驾驶、视频编辑和人机交互等。尽管最近几年已经取得了很大进步,但是,仅仅给定第一帧的目标掩模位置信息,在一些无约束的环境中,受到相机运动,目标之间互相遮挡和动态背景变化等情况时会面临巨大的挑战。视频目标分割的任务是在给定第一帧标注的特定目标情况下,在后续视频中准确的将特定目标从背景中分割出来。近年来由于卷积神经网络已经证明在许多计算机视觉应用领域有着卓越性能,因此现有的视频目标分割算法有着相似的训练过程:首先训练一个通用的全卷积神经网络来分割前景目标,然后基于视频的第一帧带标注的目标掩模对网络进行数百次的迭代微调,使得分割模型适应于特定的视频序列。尽管这种方法实现了很高的精度,但是微调过程可能会耗费大量时间,使其无法满足实时应用的需要。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷或问题,提供一种基于双重调制的视频目标分割方法。本专利技术所采用的技术方案是:一种基于双重调制的视频目标分割方法,包括以下步骤:步骤一:将当前视频帧图像输入至调制好的分割网络中,输出当前视频帧图像中分割目标对应的特征图;步骤二:将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图,完成目标分割;所述特征注意金字塔模块获得该输入的特征图的全局上下文表示,学习得到输入的特征图的不同尺度信息,得到分割目标对应的最终特征图。进一步的,所述分割网络基于VGG16全卷积网络,在VGG16全卷积网络的每个卷积层后面定义一个调制层,该调制层的参数由视觉调制器和空间调制器共同训练产生;所述视觉调制器用于学习视频第一帧带标注目标图像中的语义信息,生成使分割网络专注于分割目标外观的逐通道的缩放参数;所述空间调制器用于学习先前帧预测目标掩膜的空间线索,对当前帧目标位置进行估计,生成逐元素的偏置参数。进一步的,在VGG16全卷积网络的每个阶段的最后一层卷积层后构建一个特征细化调制模块,将经最后一层卷积层的调制层调制后的特征加入到特征细化调制模块进行第二次调制,得到细化后的特征。进一步的,以最小化损失函数为目标训练VGG16全卷积网络形成分割网络。进一步的,对分割网络的调制层进行如下配置:yc=γcχc+βc其中,γc和βc分别表示来自第c通道的视觉调制器和空间调制器的缩放参数和偏置参数,xc表示输入至调制层的特征图,yc表示经调制层调制后的特征图。进一步的,所述视觉调制器训练产生缩放参数的步骤为:使用训练好的以视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像为输入,以逐通道的缩放参数γ为输出的VGG-16神经网络作为视觉调制器的网络模型,该VGG-16神经网络的最后一层的全连接层的神经元个数与所述分割网络中的调制层的通道总数相对应,将待进行目标分割的视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像输入至视觉调制器,得到以逐通道的缩放参数γ。进一步的,所述空间调制器训练产生偏置参数的步骤包括:所述空间调制器通过逐层的池化操作将由先前帧预测的目标掩模编码得到的二维高斯分布的热图下采样为不同的尺度,匹配所述分割网络中不同特征图的尺寸大小,对每个下采样的热图应用缩放和移位操作以生成相应调制层的偏置参数:其中,m是相应调制层的下采样高斯热图,和分别是第c个通道的缩放和移位参数。进一步的,所述特征细化调制模块包括通道注意模块和空间注意模块;通过所述通道注意模块得到通道细化特征图,将得到的通道细化特征图作为所述空间注意模块的输入特征,通过所述空间注意模块得到细化特征图;所述通道注意模块分别对输入的特征图y应用全局平均池化和全局最大池化来聚合输入的特征图y中的空间信息,生成两个不同的空间上下文特征向量;将这两个特征向量分别传递到共享网络,各自生成特征图,并以逐元素求和的方式对其合并得到通道注意图最终通过sigmoid函数以逐通道的方式与输入的特征图y相乘,得到通道细化特征图并将其作为空间注意模块的输入特征;所述空间注意模块将通道注意模块输出的特征图y′作为输入,基于通道维度分别对特征图y′进行最大池化和平均池化操得到两个特征图,将两个特征图进行连接,并通过卷积操作降维成1通道的特征图,最终通过sigmoid函数以逐通道的方式与特征图y′相乘,得到最终的细化特征图进一步的,所述特征注意金字塔模块包括分支1、分支2和分支3;所述分支1,对输入到特征注意金字塔模块的特征图采用全局平均池化操作学习其全局上下文信息,生成全局像素的空间信息;所述分支2,对输入到特征注意金字塔模块的特征图采用不同大小的池化核学习得到不同尺度的特征信息,得到不同尺度的金字塔级特征;所述分支3,对输入到特征注意金字塔模块的特征图采用1×1的卷积;所述特征注意金字塔模块的结构为所述分支3与分支2的特征进行逐像素相乘,而后与分支1中产生的全局像素的空间信息进行逐像素相加,得到最终的特征图。进一步的,所述损失函数为平衡损失函数,表示如下:其中,ω为加权平衡因子,ω=|Y-|/(|Y+|+||Y-|),Y+和Y_分别为正负标签像素,p′是预测像素为前景的概率,α为用于平滑的调整抑制简单样本的速率的超参数。有益效果:本专利技术公开了一种基于双重调制的视频目标分割方法,其主要内容包括双重调制模块、分割网络以及特征注意金字塔模块。其中双重调制模块分为三部分组成:视觉调制器、空间调制器和特征细化调制模块,其过程为,视觉调制器和空间调制器对分割网络进行第一次调制,首先通过视觉调制器学习第一帧带标注目标中的语义信息,生成对应的逐通道权重来调制分割网络使其专注于特定分割目标的外观;接着,构建空间调制器学习先前帧预测目标掩模的空间信息,对当前帧目标位置的粗略估计,生成对应的逐元素的偏置参数来将空间先验注入到分割网络中,使得分割网络专注于特定分割目标;然后构建特征细化调制模块对经过视觉调制器和空间调制器调制后的特征进行第二次调制细化,得到强大的特征表示。最后构建特征注意金字塔模块挖掘不同尺度的特征,同时将全局上下文先验作为引导得到强大的特征表示,实现高质量的视频目标分割。本专利技术通过双重调制作用使得分割模型专注于特定目标,接着利用特征注意金字塔学习不同尺度的特征信息,实现高质量的像素级视频目标分割。在相机抖动、目标变形、实例之间互相遮挡等各种情况时,本专利技术的视频目标分割算法依然可以有效地实现高质量的分割。附图说明图1为本专利技术的原理图;图2为本专利技术的特征细化调制模块的原理图;图3为本专利技术的特征注意金字塔原理图;图4为本专利技术的实例示意图。具体实施方式本专利技术提出了一种基于双重调制的半监督视频目标分割方法,通过视觉调制器和空间调制器分别学习分割目标的视觉和空间信息,对分割模型进行第一次调制使其专注于特定目标,接着构建一个特征注意细化模块对分割模型进行第二次调制来进一步细化特征。最后将调制后的特征通过一个特征注意金字塔模块来学习不同尺度的信息,减少细节信息的丢失,实现高质量的视频目标分割。本专利技术还对损失函数进行改进,在解决样本不平衡问题的同时,能够区分简单和困难样本,加本文档来自技高网...

【技术保护点】
1.一种基于双重调制的视频目标分割方法,其特征在于:包括以下步骤:步骤一:将当前视频帧图像输入至调制好的分割网络中,输出当前视频帧图像中分割目标对应的特征图;步骤二:将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图,完成目标分割;所述特征注意金字塔模块获得该输入的特征图的全局上下文表示,学习得到输入的特征图的不同尺度信息,得到分割目标对应的最终特征图。

【技术特征摘要】
1.一种基于双重调制的视频目标分割方法,其特征在于:包括以下步骤:步骤一:将当前视频帧图像输入至调制好的分割网络中,输出当前视频帧图像中分割目标对应的特征图;步骤二:将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图,完成目标分割;所述特征注意金字塔模块获得该输入的特征图的全局上下文表示,学习得到输入的特征图的不同尺度信息,得到分割目标对应的最终特征图。2.根据权利要求1所述的一种基于双重调制的视频目标分割方法,其特征在于:所述分割网络基于VGG16全卷积网络,在VGG16全卷积网络的每个卷积层后面定义一个调制层,该调制层的参数由视觉调制器和空间调制器共同训练产生;所述视觉调制器用于学习视频第一帧带标注目标图像中的语义信息,生成使分割网络专注于分割目标外观的逐通道的缩放参数;所述空间调制器用于学习先前帧预测目标掩膜的空间线索,对当前帧目标位置进行估计,生成逐元素的偏置参数。3.根据权利要求2所述的一种基于双重调制的视频目标分割方法,其特征在于:在VGG16全卷积网络的每个阶段的最后一层卷积层后构建一个特征细化调制模块,将经最后一层卷积层的调制层调制后的特征加入到特征细化调制模块进行第二次调制,得到细化后的特征。4.根据权利要求3所述的一种基于双重调制的视频目标分割方法,其特征在于:以最小化损失函数为目标训练VGG16全卷积网络形成分割网络。5.根据权利要求2所述的一种基于双重调制的视频目标分割方法,其特征在于:对分割网络的调制层进行如下配置:yc=γcχc+βc其中,γc和βc分别表示来自第c通道的视觉调制器和空间调制器的缩放参数和偏置参数,xc表示输入至调制层的特征图,yc表示经调制层调制后的特征图。6.根据权利要求2所述的一种基于双重调制的视频目标分割方法,其特征在于:所述视觉调制器训练产生缩放参数的步骤为:使用训练好的以视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像为输入,以逐通道的缩放参数γ为输出的VGG-16神经网络作为视觉调制器的网络模型,该VGG-16神经网络的最后一层的全连接层的神经元个数与所述分割网络中的调制层的通道总数相对应,将待进行目标分割的视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像输入至视觉调制器,得到以逐通道的缩放参数γ。7.根据权利要求2所述的一种基于双重调制的视频目标分割方法,其特征在...

【专利技术属性】
技术研发人员:宋慧慧汤润发姜斯浩张开华张晓露
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1