一种时空部件图的视频目标分割方法技术

技术编号：25601674 阅读：70 留言：0更新日期：2020-09-11 23:58

一种时空部件图的视频目标分割方法，首先使用孪生编码模型，分两个分支：一个分支输入历史帧和掩模捕获序列的动态特征，另一个分支输入当前帧图像和前一帧的分割掩模。其次，构建时空部件图，使用图卷积网络，学习时空特征，增强目标的外观和运动模型；并引入通道注意模块，把鲁棒的时空目标模型输出到解码模块。最后，设计平滑精细模块，结合相邻阶段的多尺度图像特征，从时空信息中分割出目标。本发明专利技术时空部件图模型可生成鲁棒目标外观和运动特征，解决目标遮挡、快速变化及背景杂波问题，进而缓解目标外观变化而导致的视觉目标漂移问题，同时能够提高视频目标分割的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种时空部件图的视频目标分割方法
本专利技术涉及一种视频目标分割方法，特别是时空部件图的视频目标分割方法。
技术介绍
视频目标分割是在第一帧或参考帧上手动或自动给出特定目标掩模，而后在整个视频序列中的分割这些特定目标。当前方法与实际应用还有很大距离，其中目标遮挡、快速移动、外观变化以及不同实例之间的相似性仍然是主要障碍。文献“Fastvideoobjectsegmentationbyreference-guidedmaskpropagation.IEEEonComputerVisionandPatternRecognition,USA,2018:7376-7385”公开了一种视频目标分割方法，使用参考引导的掩模传播方式，将带有标签的参考帧和具有前一帧掩模的当前帧同时用于深度网络，输出目标掩模，取得了一定的效果。但是，该方法使用第一帧中的初始目标掩模来匹配当前帧目标，由于视觉目标分割是变化场景的动态过程，在连续帧中目标外观之间存在很强的时空关系；且简单的叠加参考帧图像和目标掩模、以及当前帧图像和前一帧掩模，没有挖掘两帧图像上空间和时域信息，易导致视觉目标的漂移问题，使得视频目标分割失败。且该方法使用多阶段特征解码方式，但不同的阶段具有不同的识别能力，从而导致不同的一致性表现，使用分割的细节有待提升。
技术实现思路
本专利技术的目的是要提供一种时空部件图的视频目标分割方法，解决目标外观变化而导致的视觉目标漂移问题，并解决多阶段特征一致性表现，提高目标分割细节。为了实现上述技术目的，本专利技术采...

【技术保护点】
1.一种时空部件图神经网络的视频目标分割方法，其特征在于，包括以下几个步骤：/nS1、使用孪生编码模型构建时空孪生编码模块，所述孪生编码模型分两个分支：一个分支输入历史帧和掩模捕获序列的动态特征，另一个分支输入当前帧图像和前一帧的分割掩模；/nS2，构建时空部件图，使用图卷积网络，学习时空特征，增强目标的外观和运动模型；并引入通道注意模块，把鲁棒的时空目标模型输出到解码模块；/nS3，设计平滑精细模块，结合相邻阶段的多尺度图像特征，从时空信息中分割出目标。/n

【技术特征摘要】
1.一种时空部件图神经网络的视频目标分割方法，其特征在于，包括以下几个步骤：
S1、使用孪生编码模型构建时空孪生编码模块，所述孪生编码模型分两个分支：一个分支输入历史帧和掩模捕获序列的动态特征，另一个分支输入当前帧图像和前一帧的分割掩模；
S2，构建时空部件图，使用图卷积网络，学习时空特征，增强目标的外观和运动模型；并引入通道注意模块，把鲁棒的时空目标模型输出到解码模块；
S3，设计平滑精细模块，结合相邻阶段的多尺度图像特征，从时空信息中分割出目标。

2.根据权利要求1所述的时空部件图神经网络的视频目标分割方法，其特征在于：
步骤S1具体包括：
S1.1、时空孪生框架有两个分支：第一个分支的输入为一个图像-掩模对即当前帧t帧图像xt和前一帧视频目标的二进制掩模的拼接，H和W为图像帧的高度和宽度，与输入的视频图像有关；第二个分支的输入为t-1到t-K的时空历史多帧图像与掩模对，即两个分支都使用ResNet50做为基础网络；
S1.2、在得到ResNet50中第5阶段的图像特征之后，使用全局卷积模块生成图像特征，即第一个分支的输出为zt和第二个分支的输出为{zt-K,...,zt-1}；

其中，h×w是特征尺寸大小，C1为特征的通道数；zt-1与zt-K的维度相同；
S1.3、将这些特征输入到时空部件图卷积网络中，以处理后输出到解码模块。

3.根据权利要求1所述的时空部件图神经网络的视频目标分割方法，其特征在于：步骤S2具体包括：
S2.1、构建时空部件外观模型
首先，把时空孪生框架中第二个分支的输出{zt-K,...,zt-1}生成为一个时空部件外观模型，在具有N＝h×w个部件和K帧上构建了一个无向时空部件图GST＝(V,E)，这些帧K具有帧内和帧间部件的关系；
其中，V是无向时空部件图中的节点集，V＝{vkn|k＝t-1,...,t-K；n＝1,...,N}，包含所有K中所有的节点，其中，vkn为一个节点，F(vkn)为特征向量；
E是无向时空部件图中的边集，边集E包含两类边：第一类是空间边ES，表示每一帧图像特征中帧内节点之间的关系，表示为ES＝{vkivkj|1≤i,j≤N,i≠j}；
第二类为时序边ET，表示帧间节点之间的关系，将连续帧中具有相同位置的部件连接，即ET＝{vkjv(k+1)j}；
基于上述无向时空部件图，使用图卷积网络对其中节点之间关系进行处理，用图卷积实现，首先，基于无向时空部件图GST关系确定了邻近矩阵A的权重；其次，将邻近矩阵和特征矩阵H(0)表示为图卷积网络的输入，而图卷积网络的输出为更新H(l+1)：

其中，Θ是需要训练的特定于层的权重矩阵，I为单位矩阵，ReLU(·)为非线性激活函数；
使用两层图卷积网络，输出矩阵为其中最后，通过最大池化聚合了时空部件特征
其次，时空部件的图卷积网络模块的输入有两个部分，已经生成了时空部件特征模型zST，而另一个部分为当前帧图像特征模型zt，构建一个无向空间部件图GS，无向空间部件图G...

【专利技术属性】
技术研发人员：姚睿，夏士雄，周勇，赵佳琦，牛强，王重秋，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人