一种时空部件图的视频目标分割方法技术

技术编号:25601674 阅读:70 留言:0更新日期:2020-09-11 23:58
一种时空部件图的视频目标分割方法,首先使用孪生编码模型,分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模。其次,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块。最后,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。本发明专利技术时空部件图模型可生成鲁棒目标外观和运动特征,解决目标遮挡、快速变化及背景杂波问题,进而缓解目标外观变化而导致的视觉目标漂移问题,同时能够提高视频目标分割的性能。

【技术实现步骤摘要】
一种时空部件图的视频目标分割方法
本专利技术涉及一种视频目标分割方法,特别是时空部件图的视频目标分割方法。
技术介绍
视频目标分割是在第一帧或参考帧上手动或自动给出特定目标掩模,而后在整个视频序列中的分割这些特定目标。当前方法与实际应用还有很大距离,其中目标遮挡、快速移动、外观变化以及不同实例之间的相似性仍然是主要障碍。文献“Fastvideoobjectsegmentationbyreference-guidedmaskpropagation.IEEEonComputerVisionandPatternRecognition,USA,2018:7376-7385”公开了一种视频目标分割方法,使用参考引导的掩模传播方式,将带有标签的参考帧和具有前一帧掩模的当前帧同时用于深度网络,输出目标掩模,取得了一定的效果。但是,该方法使用第一帧中的初始目标掩模来匹配当前帧目标,由于视觉目标分割是变化场景的动态过程,在连续帧中目标外观之间存在很强的时空关系;且简单的叠加参考帧图像和目标掩模、以及当前帧图像和前一帧掩模,没有挖掘两帧图像上空间和时域信息,易导致视觉目标的漂移问题,使得视频目标分割失败。且该方法使用多阶段特征解码方式,但不同的阶段具有不同的识别能力,从而导致不同的一致性表现,使用分割的细节有待提升。
技术实现思路
本专利技术的目的是要提供一种时空部件图的视频目标分割方法,解决目标外观变化而导致的视觉目标漂移问题,并解决多阶段特征一致性表现,提高目标分割细节。为了实现上述技术目的,本专利技术采用如下技术方案:一种时空部件图神经网络的视频目标分割方法,包括以下几个步骤:S1、使用孪生编码模型构建时空孪生编码模块,所述孪生编码模型分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模;S2,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块;S3,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。进一步的,步骤S1具体包括:S1.1、时空孪生框架有两个分支:第一个分支的输入为一个图像-掩模对即当前帧t帧图像xt和前一帧视频目标的二进制掩模的拼接,H和W为图像帧的高度和宽度,与输入的视频图像有关;第二个分支的输入为t-1到t-K的时空历史多帧图像与掩模对,即S1.2、在得到ResNet50中第5阶段的图像特征之后,使用全局卷积模块生成图像特征,即第一个分支的输出为zt和第二个分支的输出为{zt-K,...,zt-1};其中,h×w是特征尺寸大小,C1为特征的通道数;zt-1与zt-K的维度相同;S1.3、将这些特征输入到时空部件图卷积网络中,以处理后输出到解码模块。进一步的,步骤S2具体包括:S2.1、构建时空部件外观模型首先,把时空孪生框架中第二个分支的输出{zt-K,...,zt-1}生成为一个时空部件外观模型,在具有N=h×w个部件和K帧上构建了一个无向时空部件图GST=(V,E),这些帧K具有帧内和帧间部件的关系;其中,V是无向时空部件图中的节点集,V={vkn|k=t-1,...,t-K;n=1,...,N}包含所有K中所有的节点,其中,vkn为一个节点,F(vkn)为特征向量;E是无向时空部件图中的边集,边集E包含两类边:第一类是空间边ES表示每一帧图像特征中帧内节点之间的关系,表示为ES={vkivkj|1≤i,j≤N,i≠j};第二类为时序边ET表示帧间节点之间的关系,将连续帧中具有相同位置的部件连接,即ET={vkjv(k+1)j};基于上述无向时空图,使用图卷积网络对其中节点之间关系进行处理,用图卷积实现,首先,基于无向时空部件图GST关系确定了邻近矩阵A的权重;其次,将邻近矩阵和特征矩阵H(0)表示为图卷积网络的输入,而图卷积网络的输出为更新H(l+1):其中,Θ是需要训练的特定于层的权重矩阵,I为单位矩阵,ReLU(·)为非线性激活函数;使用两层图卷积网络,输出矩阵为其中最后,通过最大池化聚合了时空部件特征其次,时空部件的图卷积网络模块的输入有两个部分,已经生成了时空部件特征模型zST,而另一个部分为当前帧图像特征模型zt,构建一个无向空间部件图GS,无向空间部件图GS与上述无向时空部件图GST相似,不同之处只在于帧的数量,即无向空间部件图GS的图像帧为1,而无向时空部件图GST的图像帧为K,之后,与上述两层图卷积网络处理步骤相同,获得空间部件特征S2.2、生成鲁棒统一时空部件外观模型接下来,将时空部件特征zST和空间部件特征zS进行通道对齐,拼接为一个整体特征,此时,使用全局卷积模块将这个特征的两个部分进行特征匹配,这一模块中所有卷积层的产生的特征图的通道都为256,输出特征为Z;最后,时空部件外观模型和空间部件外观模型的输出特征具有不同的特性,采用注意机制为所有的特征分配不同的权重,即特征通道选择,用下列非线性变换把特征Z变换为其中,ψ,fGAP分别表示逐通道乘法、Sigmoid激活函数、ReLU激活函数和全局平均池化;此外,θ1和θ2为卷积层权重,为了优化特征图,使用残差模块提升边缘细节。进一步的,步骤S3具体包括:解码模块将步骤S1统一时空目标外观特征作为输入,并与编码模型中的当前帧中生成的特征进行连接,产生图像帧中目标掩码输出;解码模块包含三个平滑精细模块,再添加一个卷积层和一个Softmax层组成,其中,平滑精细模块有两个输入:一是从上一阶段特征,进行了两倍上采样;二是从编码模块相同阶段特征:首先使用3×3卷积层,其作用是将通道数统一为256;中间使用两个残差模块优化特征图,通道注意机制模块合并两个特征图,而通道注意机制模块与步骤S2中特征通道选择的操作相似,不同之处在于两个特征图拼接之后再进行加操作;接下来,Softmax层之后掩模输出的尺寸为输入图像的0.25倍,每一个目标都有生成一个两通道掩模图,即输出目标掩模。进一步的,还包括步骤S4模型训练与推理:S4.1、进行模型训练,使用从静态图像生成的仿真图像对进行网络预训练,把真实图像和目标掩模作为编码模块的K帧图像,而真实图像的仿真图像和目标掩模作为编码模块的下部分输入;S4.2、在视频目标分割数据集上微调此预训练模型,即使用DAVIS-2016和DAVIS-2017的训练数据集,分辨率为480p;为了更好地估计训练中在测试时发生的掩模错误传播,将时间窗口大小K设置为3,即使用来自视频的随机时间索引的K+1个连续目标帧,最后一个图像帧作为分割的当前帧;此外,使用最小化交叉熵损失,用Adam优化器以1e-5的学习率训练模型;S4.3、推理目标分割中,用半监督方式给出了第一帧的真实掩模,依次估计其余帧的掩模,在初始化时,将第一帧重复K次本文档来自技高网...

【技术保护点】
1.一种时空部件图神经网络的视频目标分割方法,其特征在于,包括以下几个步骤:/nS1、使用孪生编码模型构建时空孪生编码模块,所述孪生编码模型分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模;/nS2,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块;/nS3,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。/n

【技术特征摘要】
1.一种时空部件图神经网络的视频目标分割方法,其特征在于,包括以下几个步骤:
S1、使用孪生编码模型构建时空孪生编码模块,所述孪生编码模型分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模;
S2,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块;
S3,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。


2.根据权利要求1所述的时空部件图神经网络的视频目标分割方法,其特征在于:
步骤S1具体包括:
S1.1、时空孪生框架有两个分支:第一个分支的输入为一个图像-掩模对即当前帧t帧图像xt和前一帧视频目标的二进制掩模的拼接,H和W为图像帧的高度和宽度,与输入的视频图像有关;第二个分支的输入为t-1到t-K的时空历史多帧图像与掩模对,即两个分支都使用ResNet50做为基础网络;
S1.2、在得到ResNet50中第5阶段的图像特征之后,使用全局卷积模块生成图像特征,即第一个分支的输出为zt和第二个分支的输出为{zt-K,...,zt-1};

其中,h×w是特征尺寸大小,C1为特征的通道数;zt-1与zt-K的维度相同;
S1.3、将这些特征输入到时空部件图卷积网络中,以处理后输出到解码模块。


3.根据权利要求1所述的时空部件图神经网络的视频目标分割方法,其特征在于:步骤S2具体包括:
S2.1、构建时空部件外观模型
首先,把时空孪生框架中第二个分支的输出{zt-K,...,zt-1}生成为一个时空部件外观模型,在具有N=h×w个部件和K帧上构建了一个无向时空部件图GST=(V,E),这些帧K具有帧内和帧间部件的关系;
其中,V是无向时空部件图中的节点集,V={vkn|k=t-1,...,t-K;n=1,...,N},包含所有K中所有的节点,其中,vkn为一个节点,F(vkn)为特征向量;
E是无向时空部件图中的边集,边集E包含两类边:第一类是空间边ES,表示每一帧图像特征中帧内节点之间的关系,表示为ES={vkivkj|1≤i,j≤N,i≠j};
第二类为时序边ET,表示帧间节点之间的关系,将连续帧中具有相同位置的部件连接,即ET={vkjv(k+1)j};
基于上述无向时空部件图,使用图卷积网络对其中节点之间关系进行处理,用图卷积实现,首先,基于无向时空部件图GST关系确定了邻近矩阵A的权重;其次,将邻近矩阵和特征矩阵H(0)表示为图卷积网络的输入,而图卷积网络的输出为更新H(l+1):



其中,Θ是需要训练的特定于层的权重矩阵,I为单位矩阵,ReLU(·)为非线性激活函数;
使用两层图卷积网络,输出矩阵为其中最后,通过最大池化聚合了时空部件特征
其次,时空部件的图卷积网络模块的输入有两个部分,已经生成了时空部件特征模型zST,而另一个部分为当前帧图像特征模型zt,构建一个无向空间部件图GS,无向空间部件图G...

【专利技术属性】
技术研发人员:姚睿夏士雄周勇赵佳琦牛强王重秋
申请(专利权)人:中国矿业大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1