一种基于像素擦除技术的弱监督视频实例分割方法技术

技术编号:37842890 阅读:35 留言:0更新日期:2023-06-14 09:47
本发明专利技术提供了一种基于像素擦除技术的弱监督视频实例分割方法。该方法包括:对输入的原始视频数据和图片数据进行标注;将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,产生视频数据的实例掩码标注,输出更新后的视频数据;对更新后的视频数据进行像素擦除,将经过像素擦除的视频数据和图像数据输入到训练好的VIS网络中,VIS网络对视频数据和图片数据进行自监督联合训练,输出原始视频数据的类别、实例ID以及掩码预测结果。本发明专利技术在不需要任何人工标注的视频实例掩码前提下,可取得与最先进的全监督VIS工作相当甚至更优的效果。本发明专利技术的像素擦除方法可应用到其他弱监督分割任务中。分割任务中。分割任务中。

【技术实现步骤摘要】
一种基于像素擦除技术的弱监督视频实例分割方法


[0001]本专利技术涉及视频内容理解
,尤其涉及一种基于像素擦除技术的弱监督视频实例分割方法。

技术介绍

[0002]VIS(Video Instance Segmentation,视频实例分割)旨在同时对视频中的对象进行检测、分类、分割和跟踪,近些年得到了广泛研究。在深度神经网络的帮助下,现有的方法,如CrossVIS、MaskProp、STMask等,在严重拥挤、遮挡和运动模糊等具有挑战性的场景下也取得了显着的分割效果。然而,这些工作成功的背后通常依赖于每帧的密集逐像素标注,它们的获取是非常昂贵的。此外,在标注预算相同的情况下,由于视频的时间冗余性,VIS数据集通常比传统的图像分割数据集具有更小的规模和物体多样性(YouTube

VIS中掩码标注的数量为131k,独一无二的实例数量则低于5k个,而COCO数据集中掩码标注的数量超过886k个)。因此,耗费人力且效益较低的标注需求限制了VIS的发展。
[0003]为了减少VIS对标注的需求,最近的一些方法尝试了在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于像素擦除技术的弱监督视频实例分割方法,其特征在于,包括:对输入的原始视频数据和图片数据进行标注;将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,训练好的VIS网络产生视频数据的实例掩码标注,输出更新后的视频数据;对更新后的视频数据进行像素擦除,输出像素擦除后的视频数据;将经过像素擦除的视频数据和图像数据输入到训练好的VIS网络中,VIS网络对视频数据和图片数据进行自监督联合训练,输出所述原始视频数据的类别、实例ID以及掩码预测结果。2.根据权利要求1所述的方法,其特征在于,所述的对输入的原始视频数据和图片数据进行标注,包括:获取待进行实例分解的原始视频数据,通过网络收集图片数据,对所述原始视频数据进行逐帧人工标注,标注内容包括实例类别、实例检测框,以及视频内部每帧间相同实例的ID,对所述图片数据进行人工标注,标注内容包括实例类别、实例检测框,以及实例掩码,输出标注好的视频数据与图片数据。3.根据权利要求1或者2所述的方法,其特征在于,所述的将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,训练好的VIS网络产生视频数据的实例掩码标注,输出更新后的视频数据,包括:使用VIS模型结构建立VIS网络,以1:1的比例组合视频数据和图像数据,形成批次数据,将所述批次数据传入VIS网络中,视频数据和图像数据共享VIS网络参数,所述视频数据使用基于检测框的弱监督方法监督分割训练,所述图像数据采用标准交叉熵损失对网络的分割结果进行监督,当每批次中视频数据与图像实例存在类别交叉时,在视频数据与图像数据同类别实例间施加像素级循环一致性约束,若干轮次训练后,对参与训练的视频数据进行测试,生成掩码预测,并使用视频检测框标注挑选最优的掩码作为数据数据最终的伪掩码标注,输出更新后的视频数据,其中包括实例类别、实例检测框、视频内部每帧间相同实例的ID,以及由VIS网络生成的伪掩码标注。4.根据权利要求3所述的方法,其特征在于,所述的当每批次中视频数据与图像实例存在类别交叉时,在视频数据与图像数据同类别实例间施加像素级循环一致性约束,包括:在每个训练批次中,...

【专利技术属性】
技术研发人员:魏云超任中伟廖俊豪冯佳时赵耀
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1