一种运动物体实例分割方法技术

技术编号:26973024 阅读:43 留言:0更新日期:2021-01-06 00:05
本发明专利技术公开了一种运动物体实例分割方法,包括S1:将视频帧的图像序列通过Flownet2网络方法获得光流估计图像序列以及Mask‑RCNN方法获得实例分割图像序列,共同作为网络的输入,将视频帧的图像序列、光流估计图像序列结果以及实例分割图像序列合并送入U

【技术实现步骤摘要】
一种运动物体实例分割方法
本专利技术涉及一种分割方法,特别涉及一种运动物体实例分割方法,属于

技术介绍
运动物体实例分割是计算机视觉任务中的一项非常关键的技术,它直接关系到许多相关工作的效果,例如物体跟踪,视觉SLAM(SimultaneousLocalizationandMapping,及时定位与地图构建),图像识别等。能够准确地分割视频序列中运动物体,可以极大地改善动态场景中许多任务的效果,例如动态视觉SLAM,动态物体避障和动态物体建模等。当前大多数运动物体实例分割相关方法都旨在对训练集中的N个预定义类别的物体进行分割,但是在实际环境中,自动驾驶和智能机器人等许多应用都需要在开放世界中实现强大的感知能力。这些应用中都需要发现并分割新环境中前所未有的移动对象,无论其是否有特定的语义类别标签。目前,为了在动态场景中分割多个运动模型,传统的运动分割方法使用强大的几何约束将场景中相同运动的点聚类为一个模型参数实例,从而分割出场景中不同运动的移动对象。这种方法实现了基于特征点的运动分割,而不是逐个像素地进行分割,同时,这类方法的效果不够健壮和通用,比如这类方法大多只能分割场景中较为显著的运动对象,并且一次可以分割的运动模型数量有限。随着深度学习的发展,许多神经网络方法开始发现视频图像对中像素之间的对应关系,称为光流估计。在计算机视觉中,光流表示视频当前图像帧中的像素点移动到下一帧的移动量,使用二维向量表示,光流是由物体或相机的移动引起的,实现了逐像素的估计。但是,在光流估计中没有实现物体实例级的分割,也就是说,它们只估计出每个像素的移动量,并不知道哪个像素属于哪个对象。在物体实例级分割中,实例/语义分割和物体检测已经被很好的研究,这些方法用于在带标注真值的数据中训练分割特定带语义标签类别的物体,因此主要关注于对含有预定义语义类别的物体的分割,而不是所有移动物体实例的分割,无法分割不属于预定义语义类别的移动物体,因此,他们无法分割训练数据中未看到的新对象。而我们的目标是分割出动态场景中的所有运动物体实例,无论该物体是否属于训练集中预先定义的类别。
技术实现思路
本专利技术的目的在于提供一种运动物体实例分割方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种运动物体实例分割方法,包括以下步骤:S1:将视频帧的图像序列通过Flownet2网络方法获得光流估计图像序列以及Mask-RCNN方法获得实例分割图像序列,共同作为网络的输入,将视频帧的图像序列、光流估计图像序列结果以及实例分割图像序列合并送入U2-Onet网络中获得运动分割结果;S2:通过运动分割网络的输出获得运动物体分割的结果,并提取运动轮廓的结果,将实例分割的结果与运动轮廓提取结果融合,获得实例级别的运动物体的分割结果。作为本专利技术的一种优选技术方案,所述U2-Onet网络主要包括步骤a1:a1:每次将S1获取到的一帧光流图像、两帧实例分割图像、两帧连续的视频图像一起传输到第一阶段的编码器中,再通过第一阶段的编码器通过降采样的方式编码到第二阶段的编码器,通过第二阶段的编码器通过降采样的方式编码到第三阶段的编码器中,通过第三阶段的编码器通过降采样的方式编码到第四阶段的编码器,通过第四阶段的编码器通过降采样的方式编码到第五阶段的编码器,通过第五阶段的编码器通过降采样的方式编码到第六阶段的编码器中;通过第六阶段的编码器将采样特征图通过上采样的方式解码到第五阶段的解码器中,通过第五阶段的解码器通过上采样的方式解码到第四阶段的解码器中,再通过第四阶段的解码器通过上采样的方式解码到第三阶段的解码器中,通过第三阶段的解码器通过上采样的方式解码到第二阶段的解码器中,再通过第二阶段的解码器通过上采样的方式解码到第一阶段的解码器中;依据尺度注意力机制,使得第一阶段的解码器、第二阶段的解码器、第三阶段的解码、第四阶段的解码器、第五阶段的解码器和第六阶段的编码器均与对应的注意力模块指向连接,输出图像序列的运动分割结果;作为本专利技术的一种优选技术方案,所述U2-Onet运动分割网络中的编码器和解码器都是一个ORSU模块,ORSU模块主要由以下三部分组成:(1)输入卷积层,它使用OctConv卷积来进行局部特征提取,OctConv的使用进一步减少了计算和内存消耗,同时提高了分割精度,该层将输入特征图X(H×W×Cin)转换为通道数为Cout的输出特征图F1(x)。(2)高度为L的类似U-Net结构的对称编码器-解码器结构,L值越大结构深度越深,该结构将输入卷积层的结果F1(x)作为输入,学习提取和编码多尺度上下文信息得到u(F1(x),u代表如图2所示的类似U-Net的结构;(3)一个融合局部特征和多尺度特征的残差连接,融合总和为F1(x)+u(F1(x)。作为本专利技术的一种优选技术方案,所述步骤a1的U2-Onet运动分割网络由以下三部分组成:(1)六个阶段的编码器,更大的L值获得的ORSU块是用于提取高度和宽度更大的特征图的更大比例信息,在En_5和En_6阶段,这两个阶段特征图的分辨率相对较低,所以都使用ORSU-4F块,ORSU-4F块是使用膨胀卷积的ORSU的膨胀版本;(2)与其对称编码器结构相似的五个阶段解码器;(3)多尺度注意力机制,在网络的每个尺度上,我们添加一个包含通道和空间注意机制的注意力模块,注意力模块采用CBAM(ConvolutionalBlockAttentionModule),通过注意力机制消除混叠效应,同时,通过通道注意机制为特征图的通道分配不同的重要性,以及通过空间注意机制来发现特征图的哪些部分更重要,从而增强了运动物体在空间维度的显着性。作为本专利技术的一种优选技术方案,所述步骤S2中的轮廓提取方法如下:使用Opencv库中的findContours()函数,该方法利用数字化二进制图像的拓扑结构分析来获得运动分割图的多个闭合轮廓,对于每个运动轮廓Ci,我们计算每个语义实例掩膜mj和Ci的重叠度,来判断是否关联mj和Ci。仅当此重叠度大80%*|mj|时,将mj和Ci关联,其中|mj|表示属于掩膜mj的像素数。作为本专利技术的一种优选技术方案,所述步骤a1中,第一阶段的解码器、第二阶段的解码器、第三阶段的解码、第四阶段的解码器、第五阶段的解码器分别与第一阶段的编码器、第二阶段的编码器、第三阶段的编码器、第四阶段的编码器、第五阶段的编码器指向连接,每个阶段解码器输入前一阶段解码器通过上采样获得的特征图和对称阶段编码器上采样特征图的级联。与现有技术相比,本专利技术的有益效果是:1.本专利技术一种运动物体实例分割方法,在多个通用数据集中,本专利技术立足于分割出场景中几乎所有运动物体实例,无论物体大或小、单帧中移动物体数量多或少等。2、本专利技术一种运动物体实例分割方法,不仅可以分割出场景中属于特定预定义语义类别的物体,还可以分割出训练数据中未标注的新的移动物体。3、本专利技术一种运动物体实例分割方法,设计的ORSU模块使得本文档来自技高网
...

【技术保护点】
1.一种运动物体实例分割方法,其特征在于,包括以下步骤:/nS1:将视频帧的图像序列通过Flownet2网络方法获得光流估计图像序列以及Mask-RCNN方法获得实例分割图像序列,共同作为网络的输入,将视频帧的图像序列、光流估计图像序列结果以及实例分割图像序列合并送入U

【技术特征摘要】
1.一种运动物体实例分割方法,其特征在于,包括以下步骤:
S1:将视频帧的图像序列通过Flownet2网络方法获得光流估计图像序列以及Mask-RCNN方法获得实例分割图像序列,共同作为网络的输入,将视频帧的图像序列、光流估计图像序列结果以及实例分割图像序列合并送入U2-Onet网络中获得运动分割结果;
S2:通过运动分割网络的输出获得运动物体分割的结果,并提取运动轮廓的结果,将实例分割的结果与运动轮廓提取结果融合,获得实例级别的运动物体的分割结果。


2.根据权利要求1所述的一种运动物体实例分割方法,其特征在于:所述U2-Onet网络主要包括步骤a1:
a1:每次将S1获取到的一帧光流图像、两帧实例分割图像、两帧连续的视频图像一起传输到第一阶段的编码器中,再通过第一阶段的编码器通过降采样的方式编码到第二阶段的编码器,通过第二阶段的编码器通过降采样的方式编码到第三阶段的编码器中,通过第三阶段的编码器通过降采样的方式编码到第四阶段的编码器,通过第四阶段的编码器通过降采样的方式编码到第五阶段的编码器,通过第五阶段的编码器通过降采样的方式编码到第六阶段的编码器中;通过第六阶段的编码器将采样特征图通过上采样的方式解码到第五阶段的解码器中,通过第五阶段的解码器通过上采样的方式解码到第四阶段的解码器中,再通过第四阶段的解码器通过上采样的方式解码到第三阶段的解码器中,通过第三阶段的解码器通过上采样的方式解码到第二阶段的解码器中,再通过第二阶段的解码器通过上采样的方式解码到第一阶段的解码器中;依据尺度注意力机制,使得第一阶段的解码器、第二阶段的解码器、第三阶段的解码、第四阶段的解码器、第五阶段的解码器和第六阶段的编码器均与对应的注意力模块指向连接,输出图像序列的运动分割结果。


3.根据权利要求1所述的一种运动物体实例分割方法,其特征在于:所述U2-Onet运动分割网络中的编码器和解码器都是一个ORSU模块,ORSU模块主要由以下三部分组成:
(1)输入卷积层,它使用OctConv卷积来进行局部特征提取,OctConv的使用进一步减少了计算和内存消耗,同时提高了分割精度,该层将输入特征图X(H×W×Cin)转换为通道数为Cout的输出特征图F1(x)。

【专利技术属性】
技术研发人员:王晨捷李成源王伟刘军赵青尹露罗斌
申请(专利权)人:武汉斌果科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1