视频目标分割方法、装置、存储介质及电子设备制造方法及图纸

技术编号:29760794 阅读:24 留言:0更新日期:2021-08-20 21:14
本发明专利技术提供一种视频目标分割方法、装置、存储介质及电子设备,用以避免引入错误的预测信息,动态地生成鲁棒的时序上下文特征,从而提高视频目标分割的精度。该视频目标分割方法包括:提取待编辑视频的当前帧图像的多个层级的空间特征;基于多个层级的所述空间特征和当前维护的时序上下文特征,获得当前帧图像的时空特征;从所述时空特征中分割出目标,得到当前帧图像的预测图;基于当前帧图像的所述预测图进行预测准确性的评估,得到评估结果,并基于所述评估结果更新当前维护的时序上下文特征。

【技术实现步骤摘要】
视频目标分割方法、装置、存储介质及电子设备
本专利技术涉及视频处理
,尤其涉及一种视频目标分割方法、装置、存储介质及电子设备。
技术介绍
视频作为当前信息传递的重要媒介,视频的编辑技术具有重要的应用价值,而视频目标分割在视频编辑技术中发挥着重要的基础作用。视频目标分割(VideoObjectSegmentation,VOS)是指将给定的视频序列中前景和背景分离并给出目标像素级的分割结果。在半监督的设定下,在视频的第一帧会给出一个或者多个目标的像素级标签,算法自动解析出后续帧中指定目标的像素级位置,从而实现视频目标分割。目前,基于离线学习的视频目标分割方法都将如何为目标学习到一个鲁棒的时空特征作为核心突破口,而为当前帧分割提供目标时序信息的时序上下文特征的提取是其中的核心步骤。相关技术中提供时序上下文特征的策略主要有三种:1)简单融合第一帧和前一帧的图像特征作为时序上下文特征;2)根据不同的权重融合所有之前帧的图像特征;3)采用记忆网络提取并保存之前帧的所有图像特征,并Memory-Query的方式来提取带有像素级权重的时序上下文特征。但是这些方法都假设前一帧的预测是准确的,从而就直接将预测结果融合和传递到当前帧的分割预测中。当模型在分割一些难样本时,例如遮挡,运动模糊以及相似背景干扰时,有可能会产生不准确甚至是错误的预测结果,而将错误的预测结果引入后续帧的分割中,可能会误导了模型对指定目标的分割。
技术实现思路
有鉴于此,本专利技术提供一种视频目标分割方法、装置、存储介质及电子设备,用以避免引入错误的预测信息,动态地生成鲁棒的时序上下文特征,从而提高视频目标分割的精度。具体地,本专利技术是通过如下技术方案实现的:根据本专利技术的第一方面,提供一种视频目标分割方法,所述方法包括:提取待编辑视频的当前帧图像的多个层级的空间特征;基于多个层级的所述空间特征和当前维护的时序上下文特征,获得当前帧图像的时空特征;从所述时空特征中分割出目标,得到当前帧图像的预测图;基于当前帧图像的所述预测图进行预测准确性的评估,得到评估结果,并基于所述评估结果更新当前维护的时序上下文特征。在一些实施例中,所述基于当前帧图像的所述预测图进行预测准确性的评估,得到评估结果,包括:基于当前帧图像的所述预测图对当前帧图像进行背景过滤,得到背景过滤后的当前帧图像;确定背景过滤后的当前帧图像与背景过滤后的第一帧图像之间的第一相似度,以及背景过滤后的当前帧图像与背景过滤后的当前帧的前一帧图像之间的第二相似度;将所述第一相似度和所述第二相似度与设定的第一阈值进行比较,得到评估结果。在一些实施例中,所述将所述第一相似度和所述第二相似度与设定的第一阈值进行比较,得到评估结果,包括:若所述第一相似度和所述第二相似度均小于所述第一阈值,则确定评估结果为预测不准确;若所述第一相似度和所述第二相似度均大于所述第一阈值,则确定评估结果为预测准确;若所述第一相似度和所述第二相似度其中之一小于所述第一阈值,则确定评估结果为预测可能准确。在一些实施例中,所述基于所述评估结果更新当前维护的时序上下文特征,包括:根据预设的权重分配规则和所述评估结果,为时序上下文特征的更新分配相应的更新权重;根据所述更新权重,更新当前维护的时序上下文特征。在一些实施例中,所述根据预设的权重分配规则和所述评估结果,为时序上下文特征的更新分配相应的更新权重,包括:若评估结果为预测不准确,则分配的所述更新权重为零;若评估结果为预测准确,则分配第一权重;若评估结果为预测可能准确,则分配第二权重;其中,所述第一权重大于所述第二权重。在一些实施例中,在根据所述更新权重,更新当前维护的时序上下文特征之前,所述方法还包括:从背景过滤后的当前帧图像中提取第一高级语义特征,以及确定当前帧图像的所述预测图的置信度;所述根据所述更新权重,更新当前维护的时序上下文特征,包括:根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度,更新当前维护的时序上下文特征。在一些实施例中,所述根据所述更新权重、所述第一高级语义特征和所述预测图的置信度,更新当前维护的时序上下文特征,包括:根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度,采用第一公式更新当前维护的时序上下文特征,得到第一融合后的时序上下文特征;所述第一公式为:其中,为第一融合后的时序上下文特征,为当前维护的时序上下文特征,为所述更新权重,为所述第一高级语义特征,为当前帧图像的所述预测图的置信度。在一些实施例中,在得到第一融合后的时序上下文特征之后,所述方法还包括:从背景过滤后的第一帧图像中提取第二高级语义特征;根据所述第二高级语义特征和预设的强化权重,采用第二公式更新所述第一融合后的时序上下文特征,得到第二融合后的时序上下文特征;所述第二公式为:其中,为第二融合后的时序上下文特征,μ为所述强化权重,为所述第二高级语义特征。在一些实施例中,所述基于多个层级的所述空间特征和当前维护的时序上下文特征,获得当前帧图像的时空特征,包括:对多个层级的所述空间特征和当前维护的时序上下文特征在多个层级上进行分步融合,得到当前帧图像的时空特征。在一些实施例中,所述对多个层级的所述空间特征和当前维护的时序上下文特征在多个层级上进行分步融合,得到当前帧图像的时空特征,包括:在每一个层级,上采样的高级语义特征和该层级的空间特征以相加的方式进行融合,得到第一融合特征;所述第一融合特征经过卷积变换后与上采样的所述当前维护的时序上下文特征在深度方向进行级联,得到第二融合特征;所述第二融合特征经过卷积变换,得到该层级的时空特征;其中,第一层中上采样的高级语义特征为第三高级语义特征经过上采样后得到的高级语义特征;所述第三高级语义特征为多个层级的所述空间特征中最深一层的空间特征;当前层级得到的时空特征作为下一个层级的高级语义特征,以便进行下一个层级的时空特征融合;最后一个层级的时空特征作为当前帧图像的时空特征。在一些实施例中,在得到该层级的时空特征之前,所述方法还包括:将卷积变换后的所述第二融合特征输入到多级特征金字塔,以在多个分支上提取不同尺度的特征并进行融合,得到第三融合特征;所述第三融合特征经过二次卷积变换,得到该层级的时空特征。在一些实施例中,所述从所述时空特征中分割出目标,得到当前帧图像的预测图,包括:采用预先设计的用于提高分割精度的细化模块,从所述时空特征中分割出目标,得到当前帧图像的预测图。在一些实施例中,所述提取待编辑视频的当前帧图像的多个层级的空间特征,包括:获取待编辑视频的当前帧图像中目标的位置信息,所述位置信息包括宽度和高度;根据所述位置信息,以所述本文档来自技高网...

【技术保护点】
1.一种视频目标分割方法,其特征在于,所述方法包括:/n提取待编辑视频的当前帧图像的多个层级的空间特征;/n基于多个层级的所述空间特征和当前维护的时序上下文特征,获得当前帧图像的时空特征;/n从所述时空特征中分割出目标,得到当前帧图像的预测图;/n基于当前帧图像的所述预测图进行预测准确性的评估,得到评估结果,并基于所述评估结果更新当前维护的时序上下文特征。/n

【技术特征摘要】
1.一种视频目标分割方法,其特征在于,所述方法包括:
提取待编辑视频的当前帧图像的多个层级的空间特征;
基于多个层级的所述空间特征和当前维护的时序上下文特征,获得当前帧图像的时空特征;
从所述时空特征中分割出目标,得到当前帧图像的预测图;
基于当前帧图像的所述预测图进行预测准确性的评估,得到评估结果,并基于所述评估结果更新当前维护的时序上下文特征。


2.根据权利要求1所述的方法,其特征在于,所述基于当前帧图像的所述预测图进行预测准确性的评估,得到评估结果,包括:
基于当前帧图像的所述预测图对当前帧图像进行背景过滤,得到背景过滤后的当前帧图像;
确定背景过滤后的当前帧图像与背景过滤后的第一帧图像之间的第一相似度,以及背景过滤后的当前帧图像与背景过滤后的当前帧的前一帧图像之间的第二相似度;
将所述第一相似度和所述第二相似度与设定的第一阈值进行比较,得到评估结果。


3.根据权利要求2所述的方法,其特征在于,所述将所述第一相似度和所述第二相似度与设定的第一阈值进行比较,得到评估结果,包括:
若所述第一相似度和所述第二相似度均小于所述第一阈值,则确定评估结果为预测不准确;
若所述第一相似度和所述第二相似度均大于所述第一阈值,则确定评估结果为预测准确;
若所述第一相似度和所述第二相似度其中之一小于所述第一阈值,则确定评估结果为预测可能准确。


4.根据权利要求3所述的方法,其特征在于,所述基于所述评估结果更新当前维护的时序上下文特征,包括:
根据预设的权重分配规则和所述评估结果,为时序上下文特征的更新分配相应的更新权重;
根据所述更新权重,更新当前维护的时序上下文特征。


5.根据权利要求4所述的方法,其特征在于,所述根据预设的权重分配规则和所述评估结果,为时序上下文特征的更新分配相应的更新权重,包括:
若评估结果为预测不准确,则分配的所述更新权重为零;
若评估结果为预测准确,则分配第一权重;
若评估结果为预测可能准确,则分配第二权重;其中,所述第一权重大于所述第二权重。


6.根据权利要求4所述的方法,其特征在于,在根据所述更新权重,更新当前维护的时序上下文特征之前,所述方法还包括:
从背景过滤后的当前帧图像中提取第一高级语义特征,以及确定当前帧图像的所述预测图的置信度;
所述根据所述更新权重,更新当前维护的时序上下文特征,包括:
根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度,更新当前维护的时序上下文特征。


7.根据权利要求6所述的方法,其特征在于,所述根据所述更新权重、所述第一高级语义特征和所述预测图的置信度,更新当前维护的时序上下文特征,包括:
根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度,采用第一公式更新当前维护的时序上下文特征,得到第一融合后的时序上下文特征;
所述第一公式为:



其中,为第一融合后的时序上下文特征,为当前维护的时序上下文特征,为所述更新权重,为所述第一高级语义特征,为当前帧图像的所述预测图的置信度。


8.根据权利要求7所述的方法,其特征在于,在得到第一融合后的时序上下文特征之后,所述方法还包括:
从背景过滤后的第一帧图像中提取第二高级语义特征;
根据所述第二高级语义特征和预设的强化权重,采用第二公式更新所述第一融合后的时序上下文特征,得到第二融合后的时序上下文特征;
所述第二公式为:



其中,为第二融合后的时序上下文特征,μ为所述强化权重,为所述第二高级语义特征。

【专利技术属性】
技术研发人员:陶大程兰猛
申请(专利权)人:京东数科海益信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1