一种基于像素擦除技术的弱监督视频实例分割方法技术

技术编号:37842890 阅读:24 留言:0更新日期:2023-06-14 09:47
本发明专利技术提供了一种基于像素擦除技术的弱监督视频实例分割方法。该方法包括:对输入的原始视频数据和图片数据进行标注;将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,产生视频数据的实例掩码标注,输出更新后的视频数据;对更新后的视频数据进行像素擦除,将经过像素擦除的视频数据和图像数据输入到训练好的VIS网络中,VIS网络对视频数据和图片数据进行自监督联合训练,输出原始视频数据的类别、实例ID以及掩码预测结果。本发明专利技术在不需要任何人工标注的视频实例掩码前提下,可取得与最先进的全监督VIS工作相当甚至更优的效果。本发明专利技术的像素擦除方法可应用到其他弱监督分割任务中。分割任务中。分割任务中。

【技术实现步骤摘要】
一种基于像素擦除技术的弱监督视频实例分割方法


[0001]本专利技术涉及视频内容理解
,尤其涉及一种基于像素擦除技术的弱监督视频实例分割方法。

技术介绍

[0002]VIS(Video Instance Segmentation,视频实例分割)旨在同时对视频中的对象进行检测、分类、分割和跟踪,近些年得到了广泛研究。在深度神经网络的帮助下,现有的方法,如CrossVIS、MaskProp、STMask等,在严重拥挤、遮挡和运动模糊等具有挑战性的场景下也取得了显着的分割效果。然而,这些工作成功的背后通常依赖于每帧的密集逐像素标注,它们的获取是非常昂贵的。此外,在标注预算相同的情况下,由于视频的时间冗余性,VIS数据集通常比传统的图像分割数据集具有更小的规模和物体多样性(YouTube

VIS中掩码标注的数量为131k,独一无二的实例数量则低于5k个,而COCO数据集中掩码标注的数量超过886k个)。因此,耗费人力且效益较低的标注需求限制了VIS的发展。
[0003]为了减少VIS对标注的需求,最近的一些方法尝试了在没有任何视频掩码标注的情况下以弱监督方式学习VIS。例如,FlowIRN仅使用视频类别标签来学习VIS。然而,它引入了太多繁琐的设计并且与全监督方法存在显着的性能差距。另一方面,SOLO

Track选择使用包含掩码标注的图像数据集和没有任何标注的视频数据学习VIS。然而,它需要图像和视频数据之间的类别存在重叠,限制了它的灵活性,同时与全监督方法相比,仍然存在显着的性能差距(在YouTube

VIS 2019数据集上的AP指标差距超过10%)。上述问题限制了这些方法在实际场景中的应用。

技术实现思路

[0004]本专利技术的实施例提供了一种基于像素擦除技术的弱监督视频实例分割方法,以实现有效地对视频进行实例分割。
[0005]为了实现上述目的,本专利技术采取了如下技术方案。
[0006]一种基于像素擦除技术的弱监督视频实例分割方法,包括:
[0007]对输入的原始视频数据和图片数据进行标注;
[0008]将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,训练好的VIS网络产生视频数据的实例掩码标注,输出更新后的视频数据;
[0009]对更新后的视频数据进行像素擦除,输出像素擦除后的视频数据;
[0010]将经过像素擦除的视频数据和图像数据输入到训练好的VIS网络中,VIS网络对视频数据和图片数据进行自监督联合训练,输出所述原始视频数据的类别、实例ID以及掩码预测结果。
[0011]优选地,所述的对输入的原始视频数据和图片数据进行标注,包括:
[0012]获取待进行实例分解的原始视频数据,通过网络收集图片数据,对所述原始视频
数据进行逐帧人工标注,标注内容包括实例类别、实例检测框,以及视频内部每帧间相同实例的ID,对所述图片数据进行人工标注,标注内容包括实例类别、实例检测框,以及实例掩码,输出标注好的视频数据与图片数据。
[0013]优选地,所述的将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,训练好的VIS网络产生视频数据的实例掩码标注,输出更新后的视频数据,包括:
[0014]使用VIS模型结构建立VIS网络,以1:1的比例组合视频数据和图像数据,形成批次数据,将所述批次数据传入VIS网络中,视频数据和图像数据共享VIS网络参数,所述视频数据使用基于检测框的弱监督方法监督分割训练,所述图像数据采用标准交叉熵损失对网络的分割结果进行监督,当每批次中视频数据与图像实例存在类别交叉时,在视频数据与图像数据同类别实例间施加像素级循环一致性约束,若干轮次训练后,对参与训练的视频数据进行测试,生成掩码预测,并使用视频检测框标注挑选最优的掩码作为数据数据最终的伪掩码标注,输出更新后的视频数据,其中包括实例类别、实例检测框、视频内部每帧间相同实例的ID,以及由VIS网络生成的伪掩码标注。
[0015]优选地,所述的当每批次中视频数据与图像实例存在类别交叉时,在视频数据与图像数据同类别实例间施加像素级循环一致性约束,包括:
[0016]在每个训练批次中,当视频数据与图像数据的类别标签空间存在部分重叠时,在视频数据与图像数据同类别实例间施加像素级循环一致性约束,给定来自同一类别的图像实例O
Img,i
和视频实例O
Vid,j
,对于O
Img,i
前景掩码中的每个像素p,计算:
[0017][0018][0019]其中sim(p,q)表示像素特征p和q间的余弦相似度,如果像素p*落在O
Img,i
的图像前景掩码上,则认为视频数据与图像数据同类别实例间之间的循环一致性约束得到满足。
[0020]优选地,所述的对更新后的视频数据进行像素擦除,输出像素擦除后的视频数据,包括:
[0021]对所述更新后的视频数据V
t
中所有的实例进行随机采样,对于采样的每个实例对象的图像,随机选择一个矩形擦除区域,该矩形擦除区域限制在包围该实例对象的相应检测框内,视频数据V
t
中的擦除区域统称为R
t
,用随机RGB值C替换R
t
的RGB像素,保持视频数据V
t
的伪掩码M
t
不变;
[0022]视频分割的训练损失函数为:
[0023][0024]其中f
θ
(
·
)表示以θ为参数的分割网络,

表示对应像素相乘,表示真实标注Y与预测结果间的交叉熵损失;
[0025]输出像素擦除后的视频数据。
[0026]优选地,所述的将经过像素擦除的视频数据和图像数据输入到训练好的VIS网络中,VIS网络对视频数据和图片数据进行自监督联合训练,输出所述原始视频数据的类别、
实例ID以及掩码预测结果,包括:
[0027]以1:1的比例组合经过像素擦除的视频数据和图像数据,形成批次数据,将所述批次数据输入到训练好的VIS网络中,视频数据和图像数据共享VIS网络参数,在计算损失函数时,视频与图像数据均使用掩码监督各自的分割训练,训练结束后,对视频测试数据进行预测,输出所述原始视频数据的类别、实例ID以及掩码预测结果。
[0028]由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例提出了一种全新的弱监督VIS训练方法,在极大减轻对标注的依赖同时,也保持了优秀的VIS性能。我们的MaskFreeVIS在不需要任何人工标注的视频实例掩码前提下,可以取得与最先进的全监督VIS工作相当甚至更优的效果。我们的像素擦除方法可以应用到其他弱监督分割任务中。
[0029]本专利技术附加的方面和优点将在下面的描述中部分给出,这些将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于像素擦除技术的弱监督视频实例分割方法,其特征在于,包括:对输入的原始视频数据和图片数据进行标注;将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,训练好的VIS网络产生视频数据的实例掩码标注,输出更新后的视频数据;对更新后的视频数据进行像素擦除,输出像素擦除后的视频数据;将经过像素擦除的视频数据和图像数据输入到训练好的VIS网络中,VIS网络对视频数据和图片数据进行自监督联合训练,输出所述原始视频数据的类别、实例ID以及掩码预测结果。2.根据权利要求1所述的方法,其特征在于,所述的对输入的原始视频数据和图片数据进行标注,包括:获取待进行实例分解的原始视频数据,通过网络收集图片数据,对所述原始视频数据进行逐帧人工标注,标注内容包括实例类别、实例检测框,以及视频内部每帧间相同实例的ID,对所述图片数据进行人工标注,标注内容包括实例类别、实例检测框,以及实例掩码,输出标注好的视频数据与图片数据。3.根据权利要求1或者2所述的方法,其特征在于,所述的将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,训练好的VIS网络产生视频数据的实例掩码标注,输出更新后的视频数据,包括:使用VIS模型结构建立VIS网络,以1:1的比例组合视频数据和图像数据,形成批次数据,将所述批次数据传入VIS网络中,视频数据和图像数据共享VIS网络参数,所述视频数据使用基于检测框的弱监督方法监督分割训练,所述图像数据采用标准交叉熵损失对网络的分割结果进行监督,当每批次中视频数据与图像实例存在类别交叉时,在视频数据与图像数据同类别实例间施加像素级循环一致性约束,若干轮次训练后,对参与训练的视频数据进行测试,生成掩码预测,并使用视频检测框标注挑选最优的掩码作为数据数据最终的伪掩码标注,输出更新后的视频数据,其中包括实例类别、实例检测框、视频内部每帧间相同实例的ID,以及由VIS网络生成的伪掩码标注。4.根据权利要求3所述的方法,其特征在于,所述的当每批次中视频数据与图像实例存在类别交叉时,在视频数据与图像数据同类别实例间施加像素级循环一致性约束,包括:在每个训练批次中,...

【专利技术属性】
技术研发人员:魏云超任中伟廖俊豪冯佳时赵耀
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1