无监督视频分割方法技术

技术编号：29331643 阅读：24 留言：0更新日期：2021-07-20 17:49

一种无监督视频分割方法，属于视频分割技术领域。首先，生成目标语义向量。其次，对生成的目标语义向量进行在线学习。再次，设计一个残差模块来修正并突出可以表示单个目标的语义向量，提升目标定位和分割的精度。最后，生成由边缘提炼引导的细节提取及视频帧实例分割掩码，即通过逐步的边缘提取并对边缘监督来增强细节并优化视频分割结果。本发明专利技术能够通过同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位，更好地处理外观相似目标的区分以及复杂背景中目标的检测，通过对基底特征边缘的强化来提高目标分割的精度。同时，也能够很好的扩展应用于图像和视频处理的其他领域中。

全部详细技术资料下载

【技术实现步骤摘要】
无监督视频分割方法
本专利技术属于视频分割
，能够对在无人为干预的情况下对任意视频前景目标进行实例级分割，涉及到视频和图像处理的相关知识，尤其涉及一种无监督视频分割方法。
技术介绍
无监督视频分割任务近年来显示出越来越突出了作用，它的主要目的是在无人为干涉的情况下分割出视频中的主要运动物体。无监督视频分割广泛地被应用于视频推理，视频理解等领域。无监督视频分割主要分为两大类：基于检测和跟踪，以及基于像素的匹配和传播。基于检测和跟踪的方法首先对单帧图像进行目标框的检测，然后利用对应检测框内的特征相似度来寻找不同目标在时域上的连续性。这种方法可以对各种尺度目标进行较好的处理，但是错误的检测结果对于后续的分割产生了不可消除的影响。Lin等人在2020年CVPR提出的‘Videoinstancesegmentationtrackingwithamodifiedvaearchitecture’方法在检测的基础上，为每个检测到的目标分配一个实例向量，通过对向量相似度的监督和计算来完成视频时域上的连续性。同时该方法增加了一个辅助迭代检测更好的解决了物体遮挡问题。Luiten等人在WACV会议中提出了‘Unsupervisedofflinevideoobjectsegmentationandtracking’，该方法主要利用检测的结果生成长短跟踪段，由短变长的跟踪段使得该方法更好的适应长序列的目标跟踪。基于像素匹配和传播的算法可以对模型进行端到端的训练，避免了中间结果的影响，但是相似的物体会有相似的特征表现，因此该种方法...

【技术保护点】
1.一种无监督视频分割方法，其特征在于，包括以下步骤：/n第一步，生成目标语义向量/n1.1)首先输入给定的视频序列中的一帧视频帧I，提取物体特征得到一系列金字塔特征图

【技术特征摘要】
1.一种无监督视频分割方法，其特征在于，包括以下步骤：
第一步，生成目标语义向量
1.1)首先输入给定的视频序列中的一帧视频帧I，提取物体特征得到一系列金字塔特征图其中Hi、Wi和C分别表示第i层金字塔特征图的宽、高和通道数；
1.2)每个金字塔特征图Pi分别通过一系列的卷积层及上采样到与最浅层相同尺寸并求和得到融合特征：

其中，Funif为融合特征，ConvUpi表示第i层金字塔特征图经过多组卷积层和上采样；
1.3)对步骤1.2)得到的融合特征进行空间、通道上的增强和语义信息的挖掘，为后续的语义向量在线学习提供引导；利用融合特征Funif，采用公式(2)计算一个注意力图W：
W＝Sig(Conv1×1(Funif))(2)
其中，Conv1×1表示一层卷积层，Sig表示Sigmoid函数；
融合特征在注意力图的引导下经过如下的增强：
Fch＝Funif⊙Sig(Chavg(Funif⊙W))(3)
Fatt＝Conv3×3(Concat(Fch,W))(4)
式(3)输出Fch表示通道增强特征，其中Chavg表示通道平均操作；式(4)输出Fatt表示空间增强特征，其中Conv3×3表示卷积层，Concat表示通道拼接；
1.4)最后空间和通道增强特征Fatt经过四个相同组合结构输出语义向量特征FIE；语义向量特征FIE中每一个像素点是对视频帧中一个目标或者背景的粗略语义表达；
第二步，语义向量的在线学习
利用每个目标语义向量在时域上的传播来引导目标定位模糊视频帧中语义向量的学习，更好的定位目标；同时为了防止过去信息的错误积累，还融合自身增强语义向量特征来权衡时域的传播正确性；特别地，对于每个视频序列第一帧无时域传播的情况，直接进入第三步，生成语义掩码；在随后处理视频序列后续帧时，利用之前成成的语义掩码；具体如下：
2.1)对于每一帧视频帧t，首先将位置信息融合进语义向量特征FIE；采用归一化坐标coord∈[-1,1]来代表位置信息，分别与当前T时刻视频帧的语义特征和过去视频帧语义向量特征进行通道上的拼接，语义向量在线学习期间通过位置信息更好地区分相邻的实例；对于过去视频帧，再拼接上之前已经生成的语义掩码；
对于过去视频帧，采用如下方式生成自注意语义特征

其中，At和Mt分别表示过去视频帧的语义对齐特征和自注意力图；Ot表示过去视频帧预测的语义掩码；表示过去视频帧过滤后的语义向量特征；
采用公式(5)、(6)描述的自注意机制用来过滤过去视频帧的误导性信息；
2.2)为充分利用历史信息，每处理一帧后，全部过去时刻0≤t＜T的视频帧过滤后的语义向量特征将动态地更新成一个针对当前时刻T的固定大小的记忆池MemT：

其中，T表示当前时刻；
对于当前视频帧，有式：

【专利技术属性】
技术研发人员：沙莎，张立和，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人