无监督视频分割方法技术

技术编号:29331643 阅读:24 留言:0更新日期:2021-07-20 17:49
一种无监督视频分割方法,属于视频分割技术领域。首先,生成目标语义向量。其次,对生成的目标语义向量进行在线学习。再次,设计一个残差模块来修正并突出可以表示单个目标的语义向量,提升目标定位和分割的精度。最后,生成由边缘提炼引导的细节提取及视频帧实例分割掩码,即通过逐步的边缘提取并对边缘监督来增强细节并优化视频分割结果。本发明专利技术能够通过同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位,更好地处理外观相似目标的区分以及复杂背景中目标的检测,通过对基底特征边缘的强化来提高目标分割的精度。同时,也能够很好的扩展应用于图像和视频处理的其他领域中。

【技术实现步骤摘要】
无监督视频分割方法
本专利技术属于视频分割
,能够对在无人为干预的情况下对任意视频前景目标进行实例级分割,涉及到视频和图像处理的相关知识,尤其涉及一种无监督视频分割方法。
技术介绍
无监督视频分割任务近年来显示出越来越突出了作用,它的主要目的是在无人为干涉的情况下分割出视频中的主要运动物体。无监督视频分割广泛地被应用于视频推理,视频理解等领域。无监督视频分割主要分为两大类:基于检测和跟踪,以及基于像素的匹配和传播。基于检测和跟踪的方法首先对单帧图像进行目标框的检测,然后利用对应检测框内的特征相似度来寻找不同目标在时域上的连续性。这种方法可以对各种尺度目标进行较好的处理,但是错误的检测结果对于后续的分割产生了不可消除的影响。Lin等人在2020年CVPR提出的‘Videoinstancesegmentationtrackingwithamodifiedvaearchitecture’方法在检测的基础上,为每个检测到的目标分配一个实例向量,通过对向量相似度的监督和计算来完成视频时域上的连续性。同时该方法增加了一个辅助迭代检测更好的解决了物体遮挡问题。Luiten等人在WACV会议中提出了‘Unsupervisedofflinevideoobjectsegmentationandtracking’,该方法主要利用检测的结果生成长短跟踪段,由短变长的跟踪段使得该方法更好的适应长序列的目标跟踪。基于像素匹配和传播的算法可以对模型进行端到端的训练,避免了中间结果的影响,但是相似的物体会有相似的特征表现,因此该种方法会造成物体时域上联系失败。Athar在ECCV会议中提出的STemSeg模型可以直接对完整的视频序列进行逐像素的相似度学习和匹配,从而完成长序列的跟踪。不仅如此,近年来提出了多种关于视频分割的专利技术。在专利CN202011124541.7中公开了《一种优化视频目标检测、识别或分割的精度和效率的方法》,该方法利用邻近帧的识别结果,先预测当前帧的待检测子区域,再在含有目标物的待检测子区域进行处理,不需要对无关背景进行处理,极大的减少了处理所需的运算量,提升了运算效率;2020年,李永杰等人在专利CN202010786958.3中提出的《一种视频图像前景像素深度信息分类与前景分割方法和装置》,利用视频帧的深度图对分割进行辅助;2021年,由陈祖国等人公开了专利CN202011227875.7《基于双通道卷积核与多帧特征融合动态视频图像分割方法》,通过双卷积核与多帧特征融合的方法,克服了传统边缘分割边界不封闭不连续的缺点,取得了良好的图像分割效果。尽管目前的视频分割算法取得了不错的效果,但仍存在几个问题需要解决。首先,现有的大部分的视频分割方法都可以较好的解决运动明显,且外观突出的目标,但是处理外观相似且相近的实例目标时,很容易将多个目标分割成一个,这种错误会影响到后续的视频帧。另外,视频数据的范围非常广泛,场景复杂,当前景运动物体与背景相似或存在严重的遮挡时,会出现目标丢失或者错将背景分割成目标的问题。最后,现有的方法没有同时考虑到语义信息的获取和外观边缘区分,从而导致目标获取较好的方法在边缘处理上很粗糙,反之利用逐像素匹配细节的方法缺少物体的语义信息,造成相似外观物体无法区分。
技术实现思路
本专利技术要解决的技术问题是:对于给定的任意一个视频序列,没有任何的先验信息的情况下对视频序列中的视频帧每个目标进行分割。不仅如此,该专利技术还要能够较好的捕捉语义模糊的目标,如在视频序列中尺度变化较大的目标,与背景具有相似的颜色和亮度的目标等。另外,本专利技术的视频分割模型还可以广泛地应用于各种类别的目标分割。为了达到上述目的,本专利技术采用的技术方案为:本专利技术的设计原理为:根据一个观测到的结论:视频序列中视频帧的语义信息比外观信息可以更好的区分不同目标与背景,目标的语义信息包括该目标在视频帧中的相对位置、颜色、尺度等。本专利技术通过学习单个视频帧中所有目标的语义信息的关系,并传播每个目标在连续视频帧间的语义信息,能够优化相似目标的分割效果,并更好地从复杂场景中定位到目标。同时,目标边缘信息的强化对于目标的定位和分割也有引导作用,因此本专利技术通过逐步的边缘提取并对边缘监督来增强细节并优化视频分割结果。一种无监督视频分割方法,包括以下步骤:第一步,生成目标语义向量1.1)首先输入给定的视频序列中的一帧视频帧I,使用经典的金字塔结构FCN提取物体特征得到一系列金字塔特征图其中Hi、Wi和C分别表示第i层金字塔特征图的宽、高和通道数。FCN这种自下而上的结构被广泛的应用于视觉相关深度学习领域,如目标检测、全景分割、实例分割、视频分割等。1.2)FCN输出的每个金字塔特征图Pi分别通过一系列的卷积层及上采样到与最浅层相同尺寸并求和得到融合特征:其中,Funif为融合特征,ConvUpi表示第i层金字塔特征图经过多组卷积层和上采样。1.3)对步骤1.2)得到的融合特征进行空间、通道上的增强和语义信息的挖掘,从而更好的为后续的语义向量在线学习提供引导。利用融合特征Funif,采用公式(2)计算一个注意力图W:W=Sig(Conv1×1(Funif))(2)其中,Conv1×1表示一层卷积层,Sig表示Sigmoid函数;W越大,表示该位置是目标位置的概率越大。融合特征在注意力图的引导下经过如下的增强:Fch=Funif⊙Sig(Chavg(Funif⊙W))(3)Fatt=Conv3×3(Concat(Fch,W))(4)式(3)输出Fch表示通道增强特征,其中Chavg表示通道平均操作。式(4)输出Fatt表示空间增强特征,其中Conv3×3表示卷积层,Concat表示通道拼接。1.4)最后空间和通道增强特征Fatt经过四个相同组合结构(卷积层+组归一化+非线性激活函数),输出语义向量特征FIE。语义向量特征FIE中每一个像素点(一个语义向量)是对视频帧中一个目标或者背景的粗略语义表达。与外观像素的传播相比,本专利技术更多利用目标的语义全局特征(语义向量特征)的关系而不是局部外观的相似度。第二步,语义向量的在线学习初步得到的语义向量特征FIE只有每帧视频帧自身的信息,当视频帧中的目标遮挡较严重或与背景相似时,会出现目标定位的模糊,此时会出现目标丢失或有背景物体被误检测成目标的现象。由于每个视频序列中同一目标在不同帧的语义向量表示相似且与其他目标和背景不同,本专利技术利用每个目标语义向量在时域上的传播来引导目标定位模糊视频帧中语义向量的学习,从而更好的定位目标。同时为了防止过去信息的错误积累,还融合了自身增强语义向量特征来权衡时域的传播正确性。特别地,对于每个视频序列第一帧无时域传播的情况,直接进入第三步,生成语义掩码。在随后处理视频序列后续帧时,会利用之前成成的语义掩码。具体如下:2.1)对于每一帧视频帧t,首先将位置信息融合进语义向量特征FIE;这里采用归一化坐标coord∈[-1,1]来代表位置信息,分别与本文档来自技高网
...

【技术保护点】
1.一种无监督视频分割方法,其特征在于,包括以下步骤:/n第一步,生成目标语义向量/n1.1)首先输入给定的视频序列中的一帧视频帧I,提取物体特征得到一系列金字塔特征图

【技术特征摘要】
1.一种无监督视频分割方法,其特征在于,包括以下步骤:
第一步,生成目标语义向量
1.1)首先输入给定的视频序列中的一帧视频帧I,提取物体特征得到一系列金字塔特征图其中Hi、Wi和C分别表示第i层金字塔特征图的宽、高和通道数;
1.2)每个金字塔特征图Pi分别通过一系列的卷积层及上采样到与最浅层相同尺寸并求和得到融合特征:



其中,Funif为融合特征,ConvUpi表示第i层金字塔特征图经过多组卷积层和上采样;
1.3)对步骤1.2)得到的融合特征进行空间、通道上的增强和语义信息的挖掘,为后续的语义向量在线学习提供引导;利用融合特征Funif,采用公式(2)计算一个注意力图W:
W=Sig(Conv1×1(Funif))(2)
其中,Conv1×1表示一层卷积层,Sig表示Sigmoid函数;
融合特征在注意力图的引导下经过如下的增强:
Fch=Funif⊙Sig(Chavg(Funif⊙W))(3)
Fatt=Conv3×3(Concat(Fch,W))(4)
式(3)输出Fch表示通道增强特征,其中Chavg表示通道平均操作;式(4)输出Fatt表示空间增强特征,其中Conv3×3表示卷积层,Concat表示通道拼接;
1.4)最后空间和通道增强特征Fatt经过四个相同组合结构输出语义向量特征FIE;语义向量特征FIE中每一个像素点是对视频帧中一个目标或者背景的粗略语义表达;
第二步,语义向量的在线学习
利用每个目标语义向量在时域上的传播来引导目标定位模糊视频帧中语义向量的学习,更好的定位目标;同时为了防止过去信息的错误积累,还融合自身增强语义向量特征来权衡时域的传播正确性;特别地,对于每个视频序列第一帧无时域传播的情况,直接进入第三步,生成语义掩码;在随后处理视频序列后续帧时,利用之前成成的语义掩码;具体如下:
2.1)对于每一帧视频帧t,首先将位置信息融合进语义向量特征FIE;采用归一化坐标coord∈[-1,1]来代表位置信息,分别与当前T时刻视频帧的语义特征和过去视频帧语义向量特征进行通道上的拼接,语义向量在线学习期间通过位置信息更好地区分相邻的实例;对于过去视频帧,再拼接上之前已经生成的语义掩码;
对于过去视频帧,采用如下方式生成自注意语义特征






其中,At和Mt分别表示过去视频帧的语义对齐特征和自注意力图;Ot表示过去视频帧预测的语义掩码;表示过去视频帧过滤后的语义向量特征;
采用公式(5)、(6)描述的自注意机制用来过滤过去视频帧的误导性信息;
2.2)为充分利用历史信息,每处理一帧后,全部过去时刻0≤t<T的视频帧过滤后的语义向量特征将动态地更新成一个针对当前时刻T的固定大小的记忆池MemT:



其中,T表示当前时刻;
对于当前视频帧,有式:

【专利技术属性】
技术研发人员:沙莎张立和
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1