一种基于双重调制的视频目标分割方法技术

技术编号：21915301 阅读：27 留言：0更新日期：2019-08-21 12:49

本发明专利技术公开了一种基于双重调制的视频目标分割方法，包括步骤一：将当前视频帧图像输入至调制好的分割网络中，输出当前视频帧图像中分割目标对应的特征图；步骤二：将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图，完成目标分割；所述特征注意金字塔模块借助于该输入的特征图的全局上下文表示，来学习得到输入的特征图的不同尺度信息，得到分割目标对应的最终特征图。

A Video Target Segmentation Method Based on Dual Modulation

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双重调制的视频目标分割方法
本专利技术涉及视频目标分割领域，尤其是设计了一种基于双重调制的视频目标分割方法。
技术介绍
视觉目标分割是计算机视觉中的一项基本任务，它有着广泛的应用，例如：视频监控、无人驾驶、视频编辑和人机交互等。尽管最近几年已经取得了很大进步，但是，仅仅给定第一帧的目标掩模位置信息，在一些无约束的环境中，受到相机运动，目标之间互相遮挡和动态背景变化等情况时会面临巨大的挑战。视频目标分割的任务是在给定第一帧标注的特定目标情况下，在后续视频中准确的将特定目标从背景中分割出来。近年来由于卷积神经网络已经证明在许多计算机视觉应用领域有着卓越性能，因此现有的视频目标分割算法有着相似的训练过程：首先训练一个通用的全卷积神经网络来分割前景目标，然后基于视频的第一帧带标注的目标掩模对网络进行数百次的迭代微调，使得分割模型适应于特定的视频序列。尽管这种方法实现了很高的精度，但是微调过程可能会耗费大量时间，使其无法满足实时应用的需要。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷或问题，提供一种基于双重调制的视频目标分割方法。本专利技术所采用的技术方案是：一种基于双重调制的视频目标分割方法，包括以下步骤：步骤一：将当前视频帧图像输入至调制好的分割网络中，输出当前视频帧图像中分割目标对应的特征图；步骤二：将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图，完成目标分割；所述特征注意金字塔模块获得该输入的特征图的全局上下文表示，学习得到输入的特征图的不同尺度信息，得到分割目标对应的最终特征图。进一步的，所述分割网络基于VGG1...

【技术保护点】
1.一种基于双重调制的视频目标分割方法，其特征在于：包括以下步骤：步骤一：将当前视频帧图像输入至调制好的分割网络中，输出当前视频帧图像中分割目标对应的特征图；步骤二：将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图，完成目标分割；所述特征注意金字塔模块获得该输入的特征图的全局上下文表示，学习得到输入的特征图的不同尺度信息，得到分割目标对应的最终特征图。

【技术特征摘要】
1.一种基于双重调制的视频目标分割方法，其特征在于：包括以下步骤：步骤一：将当前视频帧图像输入至调制好的分割网络中，输出当前视频帧图像中分割目标对应的特征图；步骤二：将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图，完成目标分割；所述特征注意金字塔模块获得该输入的特征图的全局上下文表示，学习得到输入的特征图的不同尺度信息，得到分割目标对应的最终特征图。2.根据权利要求1所述的一种基于双重调制的视频目标分割方法，其特征在于：所述分割网络基于VGG16全卷积网络，在VGG16全卷积网络的每个卷积层后面定义一个调制层，该调制层的参数由视觉调制器和空间调制器共同训练产生；所述视觉调制器用于学习视频第一帧带标注目标图像中的语义信息，生成使分割网络专注于分割目标外观的逐通道的缩放参数；所述空间调制器用于学习先前帧预测目标掩膜的空间线索，对当前帧目标位置进行估计，生成逐元素的偏置参数。3.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在于：在VGG16全卷积网络的每个阶段的最后一层卷积层后构建一个特征细化调制模块，将经最后一层卷积层的调制层调制后的特征加入到特征细化调制模块进行第二次调制，得到细化后的特征。4.根据权利要求3所述的一种基于双重调制的视频目标分割方法，其特征在于：以最小化损失函数为目标训练VGG16全卷积网络形成分割网络。5.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在于：对分割网络的调制层进行如下配置：yc＝γcχc+βc其中，γc和βc分别表示来自第c通道的视觉调制器和空间调制器的缩放参数和偏置参数，xc表示输入至调制层的特征图，yc表示经调制层调制后的特征图。6.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在于：所述视觉调制器训练产生缩放参数的步骤为：使用训练好的以视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像为输入，以逐通道的缩放参数γ为输出的VGG-16神经网络作为视觉调制器的网络模型，该VGG-16神经网络的最后一层的全连接层的神经元个数与所述分割网络中的调制层的通道总数相对应，将待进行目标分割的视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像输入至视觉调制器，得到以逐通道的缩放参数γ。7.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在...

【专利技术属性】
技术研发人员：宋慧慧，汤润发，姜斯浩，张开华，张晓露，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人