一种基于全卷积神经网络的弱监督视频目标分割方法技术

技术编号:26421411 阅读:52 留言:0更新日期:2020-11-20 14:17
本发明专利技术公开了一种基于全卷积神经网络的弱监督视频目标分割方法,无需针对给定的数据集在线微调,无需给出目标的具体分割标签,只需要在视频第一帧中给出目标的边框标注,就可以快速准确地进行视频目标分割;同时,所设计的帧间空间‑通道聚合模块能有效地从空间和通道两个层面整合多个记忆帧的信息,对查询帧内的目标分割进行引导;最终通过解码器网络,能实现目标高精度分割。

【技术实现步骤摘要】
一种基于全卷积神经网络的弱监督视频目标分割方法
本专利技术涉及智能视频目标分割
,尤其涉及一种基于全卷积神经网络的弱监督视频目标分割方法。
技术介绍
视频目标分割是多媒体领域的新兴课题,对视频中的特定目标进行追踪和分割可以有效提取出关键信息,促进对视频内容的理解。为节省对视频目标的标注时间,弱监督的视频目标自动分割技术应运而生,其通过给出视频第一帧中特定目标的边框标签,自动进行后续每帧图像中的目标分割。但是,现有的弱监督视频目标分割方法不能有效利用图像序列的帧间信息,难以同时达到高速处理和高精度分割的目的。
技术实现思路
本专利技术的目的是提供一种基于全卷积神经网络的弱监督视频目标分割方法,能够对目标进行连续的跟踪和像素级分割。本专利技术的目的是通过以下技术方案实现的:一种基于全卷积神经网络的弱监督视频目标分割方法,包括:对于当前查询帧,从历史帧中选取N帧作为记忆帧,将所有记忆帧图像及相应的边框标签或者预测边框、查询帧图像对应的输入至第一编码器、第二编码器;第一编码器提取出N个记本文档来自技高网...

【技术保护点】
1.一种基于全卷积神经网络的弱监督视频目标分割方法,其特征在于,包括:/n对于当前查询帧,从历史帧中选取N帧作为记忆帧,将所有记忆帧图像及相应的边框标签或者预测边框、查询帧图像对应的输入至第一编码器、第二编码器;/n第一编码器提取出N个记忆帧各自对应的特征图,将每一特征图各自输入至一个键-值卷积模块,获得每一特征图的键特征与值特征,将所有的键特征、值特征各自按通道方向连接,获得记忆帧的键特征与值特征;第二编码器提取出查询帧对应的特征图,输入至一个键-值卷积模块,获得查询帧的键特征与值特征;/n将记忆帧的键特征与值特征、以及查询帧的键特征与值特征输入至帧间空间-通道聚合模块,在空间和通道两个层面...

【技术特征摘要】
1.一种基于全卷积神经网络的弱监督视频目标分割方法,其特征在于,包括:
对于当前查询帧,从历史帧中选取N帧作为记忆帧,将所有记忆帧图像及相应的边框标签或者预测边框、查询帧图像对应的输入至第一编码器、第二编码器;
第一编码器提取出N个记忆帧各自对应的特征图,将每一特征图各自输入至一个键-值卷积模块,获得每一特征图的键特征与值特征,将所有的键特征、值特征各自按通道方向连接,获得记忆帧的键特征与值特征;第二编码器提取出查询帧对应的特征图,输入至一个键-值卷积模块,获得查询帧的键特征与值特征;
将记忆帧的键特征与值特征、以及查询帧的键特征与值特征输入至帧间空间-通道聚合模块,在空间和通道两个层面进行特征聚合,获得通道加权聚合的特征;
将通道加权聚合的特征输入至解码器网络,预测分割掩模与边框。


2.根据权利要求1所述的一种基于全卷积神经网络的弱监督视频目标分割方法,其特征在于,所述从历史帧中选取N帧作为记忆帧包括:
当前查询帧记为第t帧;
在训练阶段,通过基于均值分布的随机采样从首帧,...,第t-1帧中取N帧作为记忆帧;
在测试阶段,记忆帧中固定包含首帧和第t-1帧,同时从首帧起,每隔m帧取一帧图像加入记忆帧,m为一个常数,记忆帧的数量N随时间增加。


3.根据权利要求1所述的一种基于全卷积神经网络的弱监督视频目标分割方法,其特征在于,
所述第二编码器由ResNet50网络的前4个阶段卷积网络组成,以查询帧图像的RGB三通道为输入;
所述第一编码器使用ResNet50网络的变体,将其第一阶段网络改为以4通道为输入,其中RGB三通道输入原始的ResNet50网络,第4个通道输入为边框标签或者预测边框,利用卷积层处理后,与RGB三通道输出的特征相加,作为新的第一阶段网络的输出。


4.根据权利要求1所述的一种基于全卷积神经网络的弱监督视频目标分割方法,其特征在于,
将N个记忆帧各自对应的特征图以及查询帧对应的特征图Fq各自输入至一个键-值卷积模块;特征图与特征图Fq均为M个通道;
所有键-值卷积模块的结构相同,均包含两个并行的卷积层;两个卷积层各自对输入的特征图进行压缩和精炼,将输入的M通道特征图变为M/8通道的键特征和M/2的值特征;记每一记忆帧的键特征为值特征为查询帧的键特征为Kq,值特征为Vq;
将所有记忆帧的键特征、值特征各自按通道方向连接,得到N×M/8通道的记忆帧键特征Km,N×M/2通道的记忆帧值特征Vm。


5.根据权利要求1所述的一种基于全卷积神经网络的弱监督视频目标分割方法,其特征在于,帧间空间-通道聚合模块进行特征聚合操作的过程包括:
记忆帧的键特征和值特征分别为Km与Vm,查询帧的键特征和值特征分别为Kq与Vq;所有键特征和值特征的大小均为H×W,其中,H为高度,W为宽度;
将查询帧的键特征Kq展开成H×W×M/8的特征图,与展开成M/8×N×H×W的矩阵的记忆帧键特征Km相乘,得到H×W×N×H×W的相关性矩阵C;
将相关性矩阵C经过softmax函数在列方向上进行归一化后,与展开成N×H×W×M/2的矩阵的记忆帧值特征Vm相乘得到空间加权聚合的记忆帧的值特征再将变形成H×W×M/2的特征图;
将值特征变形得到的特征图经过一个全局平均池化层的处理,将每一通道的特征图压缩成一个特征值,由M/2个通道得到1×M/2的特征向量将查询帧的值特征Vq经过一个全局平均池化层的处理,得到1×M/2的特征向量vq;
将特征向量和vq连接成1×M的特征向量,输入至一个由两个全连接网络层组成的线性映射单元;其中,第一个全连接网络层大小为M×M/2,第二个全连接网络层大小为M/2×M;线性...

【专利技术属性】
技术研发人员:张勇东林凡超谢洪涛
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1