【技术实现步骤摘要】
一种视频实例分割系统和方法
本专利技术涉及视频实例分割
,尤其涉及一种视频实例分割系统和方法。
技术介绍
视频的分割是计算机视觉的基本问题之一。视频实例分割的目标是:同时检测、分割和跟踪视频中的对象实例。这项新任务为需要视频编辑、自动驾驶和增强现实等视频级对象掩码的应用程序开辟了可能性。视频实例分割比图像实例分割更具挑战性,因为它不仅需要单独帧上的实例分割,而且还需要跨帧跟踪实例。另一方面,视频内容包含了比单一图像更丰富的信息,如不同目标的运动模式和时间一致性,从而为目标识别和分割提供了更多的线索。相关技术以判别式方法为主,主要思想就是以掩膜-候选区卷积神经网络(MaskRegion-ConvolutionalNeuralNetwork,MaskR-CNN)等目标检测模型为基本框架,加入跟踪模块,完成视频实例分割。这些方法通常涉及多个阶段的管道(即多个训练阶段),这些管道遵循检测跟踪模式,并将视频片段建模为图像序列。多网络被用来检测单个帧中的目标,然后随着时间的推移将这些检测结果关联起来。尽管这些方法能 ...
【技术保护点】
1.一种视频实例分割系统,其特征在于,包括:/n特征提取模块,用于获取待处理视频,其中,所述待处理视频包括多个视频帧,所述多个视频帧中包含至少一个待分割实例;提取所述多个视频帧的特征;/n浅层嵌入量估计模块,与所述特征提取模块连接,用于基于所述多个视频帧的特征和所述至少一个待分割实例的显式信息,估计每个视频帧中的每个像素位置的显变量嵌入量,其中,所述显式信息包括以下至少之一:位置信息和时序信息,且所述显式信息来自所述多个视频帧的标注信息或由所述浅层嵌入量估计模块计算得到;并根据像素位置的显变量嵌入量,建立每个待分割实例的浅层高斯分布模型;/n深层嵌入量估计模块,与所述特征提 ...
【技术特征摘要】
1.一种视频实例分割系统,其特征在于,包括:
特征提取模块,用于获取待处理视频,其中,所述待处理视频包括多个视频帧,所述多个视频帧中包含至少一个待分割实例;提取所述多个视频帧的特征;
浅层嵌入量估计模块,与所述特征提取模块连接,用于基于所述多个视频帧的特征和所述至少一个待分割实例的显式信息,估计每个视频帧中的每个像素位置的显变量嵌入量,其中,所述显式信息包括以下至少之一:位置信息和时序信息,且所述显式信息来自所述多个视频帧的标注信息或由所述浅层嵌入量估计模块计算得到;并根据像素位置的显变量嵌入量,建立每个待分割实例的浅层高斯分布模型;
深层嵌入量估计模块,与所述特征提取模块连接,用于基于所述多个视频帧的特征进行隐变量推理,得到每个待分割实例的隐式信息,其中,所述隐式信息包括以下至少之一:颜色、光照和遮挡信息;基于所述多个视频帧的特征和所述至少一个待分割实例的隐式信息,估计每个视频帧中的每个像素位置的隐变量嵌入量;并根据像素位置的隐变量嵌入量,对每个待分割实例的浅层高斯分布模型进行优化,得到所述每个待分割实例的深层高斯分布模型;
聚类推理模块,与所述深层嵌入量估计模块连接,用于根据所有待分割实例的深层高斯分布模型,使用高斯分布密度估计函数对每个视频帧中的每个像素位置进行推理聚类,得到所述待处理视频的分割掩码。
2.如权利要求1所述的视频实例分割系统,其特征在于,所述特征提取模块包括特征金字塔网络FPN编码器,所述FPN编码器包括:
依次串联的第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块,其中,视频帧输入所述第一卷积块,得到特征C1;C1输入所述第二卷积块,得到特征C2;C2输入所述第三卷积块,得到特征C3;C3输入所述第四卷积块,得到特征C4;C4输入所述第五卷积块,得到特征C5;
第六卷积块、第七卷积块、第八卷积块和第九卷积块,均为1×1卷积块,分别与所述第五卷积块、第四卷积块、第三卷积块和第二卷积块连接,用于改变C5、C4、C3和C2的通道数,得到特征M5、M41、M31和M21;
第一加法器、第二加法器和第三加法器,其中,所述第一加法器与所述第六卷积块和所述第七卷积块连接,用于将M5与M41相加后得到特征M4;所述第二加法器与第一加法器和所述第八卷积块连接,用于将M4与M31相加后得到特征M3;所述第三加法器与所述第二加法器和所述第九卷积块连接,用于将M3与M21相加后得到特征M2;
第十卷积块、第十一卷积块、第十二卷积块和第十三卷积块,均为3×3卷积块,分别与所述第三加法器、第二加法器、第一加法器和第六卷积块连接,分别用于对M2、M3、M4和M5继续进行特征提取,得到特征P2、P3、P4和P5。
3.如权利要求2所述的视频实例分割系统,其特征在于,所述浅层嵌入量估计模块包括:
上解码器,与所述第十卷积块、第十一卷积块、第十二卷积块和第十三卷积块连接,用于对P2,P3,P4,P5进行上采样,以预测所述视频帧中的每个待分割实例的种子图,其中,所述种子图是一个分数图,像素位置越靠近每个待分割实例的中心点,对应的分数越高;
下解码器,与所述第十卷积块、第十一卷积块、第十二卷积块和第十三卷积块连接,用于对P2,P3,P4,P5进行上采样,以预测所述视频帧中的每个待分割实例的对应的显式信息的偏移量,其中,所述显式信息包括位置信息和时序信息;
嵌入量生成模块,与所述下解码器连接,...
【专利技术属性】
技术研发人员:房体品,秦者云,卢宪凯,丁冬睿,
申请(专利权)人:广东众聚人工智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。