基于时序特征聚合和条件卷积的快速视频目标分割方法技术

技术编号:28131777 阅读:17 留言:0更新日期:2021-04-19 11:55
本发明专利技术公开了一种基于时序特征聚合和条件卷积的视频目标分割方法,包括:获取待分割视频的多帧图像;对多帧图像按时间顺序排列,获取记忆帧图像及查询帧图像,查询帧图像为最后一帧记忆帧图像的下一帧图像;对记忆帧图像和查询帧图像处理得到记忆帧图像特征和查询帧图像特征,对记忆帧图像的目标掩膜处理得到记忆帧掩膜特征;将记忆帧图像特征、查询帧图像特征和记忆帧掩膜特征进行特征聚合得到聚合的目标特征;根据聚合的目标特征和查询帧图像特征确定卷积核参数;通过解码网络对查询帧图像的特征和卷积核参数处理得到查询帧图像的目标分割预测结果,能高效地获取目标特征和目标自适应的卷积核,快速准确地进行视频目标分割。分割。分割。

【技术实现步骤摘要】
基于时序特征聚合和条件卷积的快速视频目标分割方法


[0001]本专利技术涉及智能视频目标分割
,尤其是涉及一种基于时序特征聚合和条件卷积的快速视频目标分割方法。

技术介绍

[0002]视频目标分割是多媒体领域的新兴课题,在视频会议、视频监控和自动驾驶等领域中被广泛应用。半监督的视频目标分割技术通过给出视频中特定目标的第一帧分割掩膜标签,自动进行后续每帧图像中的目标分割,可以有效提取出关键信息,促进对视频内容的理解,且大大节省对视频目标的人工标注时间。已有的半监督视频目标分割方法不能快速获取充分的目标信息,且以固定的模式对目标信息进行处理,忽略了视频目标的动态特性。
[0003]因此,目前亟待解决的技术问题是,提出一种高效率、高准确性的视频目标分割方法。

技术实现思路

[0004]为了解决上述技术问题,充分考虑目标的动态变化,兼顾速度和精度,本专利技术提供一种基于时序特征聚合和条件卷积的快速视频目标分割方法,能快速高效地得到准确的预测结果,能高效率、高准确性地对视频目标分割,具体方案如下。
[0005]本专利技术公开了一种基于时序特征聚合和条件卷积的视频目标分割方法,包括:
[0006]获取待分割视频的多帧图像;
[0007]对所述多帧图像按时间顺序排列,获取记忆帧图像及查询帧图像,所述查询帧图像为所述记忆帧图像中最后一帧图像的下一帧图像,所述记忆帧图像中第一帧图像包括目标掩膜;
[0008]对所述记忆帧图像和查询帧图像处理得到记忆帧图像特征和查询帧图像特征,对所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征;
[0009]将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征进行特征聚合得到聚合的目标特征;
[0010]根据所述聚合的目标特征和所述查询帧图像特征确定卷积核参数;以及
[0011]通过解码网络对所述查询帧图像的特征和所述卷积核参数处理得到所述查询帧图像的目标分割预测结果。
[0012]根据本专利技术的一些实施例,所述获取记忆帧图像包括:
[0013]从按时间顺序排列的所述多帧图像的t

1帧中获取n帧图像,并将所述n帧图像、所述多帧图像中的第一帧图像和第t

1帧图像作为记忆帧图像,其中,从第一帧图像起每隔m帧图像取一帧图像加入到所述记忆帧图像,其中,n、m、t均为整数,n≥2,t≥n+1,m≥1。
[0014]根据本专利技术的一些实施例,所述记忆帧图像数量上限为N帧,当所述记忆帧图像数量达到N帧之后,每加入一帧新的记忆帧图像,则从所述记忆帧图像中移除除第一帧图像之外的时序最小的一帧图像,其中,N为整数,N>n+2。
[0015]根据本专利技术的一些实施例,所述对所述记忆帧图像和所述查询帧图像处理得到记忆帧图像特征和查询帧图像特征,所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征包括:
[0016]将所述记忆帧图像输入到图像编码器提取特征得到第一通道特征,将每一帧记忆帧图像的第一通道特征按通道方向连接得到记忆帧图像特征;
[0017]将所述记忆帧图像中所有具有目标掩膜的记忆帧图像的目标掩膜输入到目标掩膜编码器提取特征得到第二通道特征,将每一帧记忆帧图像的第二通道特征按通道方向连接得到记忆帧掩膜特征;以及
[0018]将所述查询帧图像输入所述图像编码器提取特征得到查询帧图像特征;
[0019]其中,所述目标掩膜为分割标签图数据。
[0020]根据本专利技术的一些实施例,所述将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征进行特征聚合得到聚合的目标特征包括:
[0021]将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征输入到目标掩膜编码聚合模块进行特征聚合。
[0022]根据本专利技术的一些实施例,所述根据所述聚合的目标特征和所述查询帧图像特征确定卷积核参数包括:
[0023]将所述聚合的目标特征和所述查询帧图像特征输入条件卷积核控制器,按通道方向连接得到第三通道特征;以及
[0024]通过残差模块对所述第三通道特征处理得到i个条件卷积核参数;
[0025]其中,i为整数,i≥1。
[0026]根据本专利技术的一些实施例,所述通过残差模块对所述第三通道特征处理得到i个条件卷积核参数包括:
[0027]对所述第三通道特征进行三次3*3卷积以及两次线性整流函数激活函数的处理,将处理结果与所述第三通道特征进行相加,并输出相加结果;以及
[0028]将所述相加结果输入一个可变形卷积模块进行卷积处理得到卷积核偏置特征,其中,所述可变形卷积模块包括可变形卷积层。
[0029]根据本专利技术的一些实施例,所述通过残差模块对所述第三通道特征处理得到i个条件卷积核参数还包括:
[0030]将所述卷积核偏置特征输入到条件卷积核生成器进行通道层面的全局最大池化操作和通道层面的全局平均池化操作;以及
[0031]将所述全局最大池化操作的输出结果与所述全局平均池化操作的输出结果按通道方向连接得到特征向量,将所述特征向量与全连接层连接后输出所述i个条件卷积核参数。
[0032]根据本专利技术的一些实施例,所述通过解码网络对查询帧图像的特征和所述卷积核参数处理得到所述查询帧图像的目标分割预测结果包括:
[0033]所述解码网络的处理过程依次分为阶段四、阶段三和阶段二,所述阶段四、所述阶段三和所述阶段二均包括条件卷积模块、解码模块和残差模块;
[0034]在所述阶段四中,将所述卷积核偏置特征进行1*1卷积处理,将处理结果输入到第四条件卷积模块依次经过3*3卷积和第四残差模块的处理并输出;
[0035]在所述阶段三中,将所述第四残差模块的输出和所述查询帧图像在图像编码器三阶段的输出特征输入第三解码模块进行解码,将解码结果输入到第三条件卷积模块进行处理并输出;以及
[0036]在所述阶段二中,将所第三条件卷积模块的输出和所述查询帧图像在所述图像编码器二阶段的输出特征输入第二解码模块进行解码,将解码结果输入到第二条件卷积模块进行处理,将处理结果进行3*3卷积得到单通道的热力图,对所述单通道的热力图进行归一化得到对查询帧图像的目标分割预测结果。
[0037]根据本专利技术的一些实施例,所述条件卷积模块包括k个1*1卷积层和线性整流函数激活函数;
[0038]在所述解码模块中,将查询帧图像编码器中输出的中间特征通过跳线连接输入,先通过1*1卷积将特征通道数调整为与所述解码网络中对应阶段特征通道相同,再用残差模块进行处理,将处理结果与所述解码网络对应的阶段特征图的2倍上采样结果进行逐像素相加,将相加结果经过残差模块处理得到当前阶段解码模块的输出;以及
[0039]所述残差模块中,将输入的特征图经过两次线性整流函数激活函数处理以及3*3卷积处理后,与所述输入的特征图相加,将相加结果输出;
[0040]其中,k为整数,k≥1。
[0041]通过上述技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序特征聚合和条件卷积的视频目标分割方法,其特征在于,包括:获取待分割视频的多帧图像;对所述多帧图像按时间顺序排列,获取记忆帧图像及查询帧图像,所述查询帧图像为所述记忆帧图像中最后一帧图像的下一帧图像,所述记忆帧图像中第一帧图像包括目标掩膜;对所述记忆帧图像和查询帧图像处理得到记忆帧图像特征和查询帧图像特征,对所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征;将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征进行特征聚合得到聚合的目标特征;根据所述聚合的目标特征和所述查询帧图像特征确定卷积核参数;以及通过解码网络对所述查询帧图像的特征和所述卷积核参数处理得到所述查询帧图像的目标分割预测结果。2.根据权利要求1所述的方法,其特征在于,所述获取记忆帧图像包括:从按时间顺序排列的所述多帧图像的t

1帧中获取n帧图像,并将所述n帧图像、所述多帧图像中的第一帧图像和第t

1帧图像作为记忆帧图像,其中,从第一帧图像起每隔m帧图像取一帧图像加入到所述记忆帧图像,其中,n、m、t均为整数,n≥2,t≥n+1,m≥1。3.根据权利要求2所述的方法,其特征在于,所述记忆帧图像数量上限为N帧,当所述记忆帧图像数量达到N帧之后,每加入一帧新的记忆帧图像,则从所述记忆帧图像中移除除第一帧图像之外的时序最小的一帧图像,其中,N为整数,N>n+2。4.根据权利要求1所述的方法,其特征在于,所述对所述记忆帧图像和所述查询帧图像处理得到记忆帧图像特征和查询帧图像特征,对所述记忆帧图像的目标掩膜处理得到记忆帧掩膜特征包括:将所述记忆帧图像输入到图像编码器提取特征得到第一通道特征,将每一帧记忆帧图像的第一通道特征按通道方向连接得到记忆帧图像特征;将所述记忆帧图像中所有具有目标掩膜的记忆帧图像的目标掩膜输入到目标掩膜编码器提取特征得到第二通道特征,将所有的第二通道特征按通道方向连接得到记忆帧掩膜特征;以及将所述查询帧图像输入所述图像编码器提取特征得到查询帧图像特征;其中,所述目标掩膜为分割标签图数据。5.根据权利要求1所述的方法,其特征在于,所述将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征进行特征聚合得到聚合的目标特征包括:将所述记忆帧图像特征、所述查询帧图像特征和所述记忆帧掩膜特征输入到目标掩膜编码聚合模块进行特征聚合。6.根据权利要求4所述的方法,其特征在于,所述根据所述聚合的目标特征和所述查询帧图像特征确定卷积核参数包括:将所述聚合的目标特征和所述查询帧图像特征输入条件卷积核控制器,按通道方向连接得到第三通道特...

【专利技术属性】
技术研发人员:张勇东林凡超谢洪涛
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1