一种基于语义分割的双目场景流确定方法及系统技术方案

技术编号:19747409 阅读:20 留言:0更新日期:2018-12-12 05:06
本发明专利技术公开了一种基于语义分割的双目场景流确定方法及系统,该方法先对双目图像中的场景进行语义分割,通过添加语义分割的标签信息计算语义光流,通过半全局匹配算法计算视差信息,然后结合语义光流和视差信息拟合计算无数个小平面区域的运动参数并优化。在优化运动过程中,先由超像素分割求得初始场景流,然后在语义分割的标签内部进行优化,使得语义标签内部的超像素块的运动趋于一致,同时很好地保护了运动物体的边缘信息。本发明专利技术在光流信息中加入语义信息,使得物体的边缘得到保护,大大简化了遮挡问题的推理过程;此外,语义标签层面的运动推理使得同一个运动物体的表面像素点的场景流近似一致,最终达到了优化场景流的目的。

【技术实现步骤摘要】
一种基于语义分割的双目场景流确定方法及系统
本专利技术涉及场景流优化
,特别涉及一种基于语义分割的双目场景流确定方法及系统。
技术介绍
场景流是空间中场景的三维运动所形成的三维运动场,场景流的提出将对物体的运动估计由二维拓展到三维,其在3D重构、视觉导航等方面处于核心位置。常见的场景流确定方法为基于双目视觉的场景流计算方法,原理为利用立体匹配模块中获取的图像像素的深度信息结合传统光流感知模型获取的图像像素的二维速度矢量信息,构建对应图像像素点在三维空间中的运动场景,即场景流。场景流包含三维场景的结构和运动特征,是诸多视觉应用中的核心问题,如视频跟踪与监控,自主机器人导航,虚拟现实,三维视频压缩与显示等。场景流确定方法的准确性正在稳步提高,数据集排行榜中的结果证明了这一点。然而,即使是目前最先进的场景流方法在运动边缘和物体遮挡边界附近仍然表现不佳,运动边缘模糊和遮挡问题一直是场景流估计算法中的难题。
技术实现思路
本专利技术的目的是提供一种基于语义分割的双目场景流确定方法及系统,通过添加语义分割信息,准确估计物体运动边缘信息,从而有效地解决遮挡问题,最终达到提高场景流准确度的目的。为实现上述目的,本专利技术提供了如下方案:一种基于语义分割的双目场景流确定方法,所述双目场景流确定方法包括:建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;根据所有所述运动模型综合确定所述双目图像的语义光流;采用半全局匹配算法计算所述双目图像的左右目的视差信息;根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。可选的,所述物体类别包括:飞机、火车、汽车、摩托车、人;所述平面类别包括天空、水;所述第三类别包括建筑物、植被。可选的,所述建立语义分割模型,具体包括:采用Caffe深度学习框架训练所述语义分割模型;所述深度卷积神经网络是通过将VGG-16中的全连接层调整为卷积层得到的;在所述深度卷积神经网络深后面连接一个全连接条件随机场;所述全连接条件随机场的能量函数为:其中,x是像素的标签分配,i和j表示图像中两个不同的像素;ξi(xi)=-logP(xi)表示一元势能,是定义在像素i的状态特征函数,用于描述像素i对标签类别的影响;P(xi)是DCNN计算的像素i处的标签分配概率;表示二元势能,定义为不同像素点上的转移特征函数,用于描述像素之间的相关关系,并当xi≠xj,μ(xi,xj)=1,否则,μ(xi,xj)=0;K表示高斯核的个数,ωm表示高斯核的加权参数,km是提取特征的高斯核,fi和fj表示像素i和j提取的特征;高斯核表示为:其中,ω1和ω2表示高斯加权系数;pi和pj表示像素i和j的位置,Ii和Ij表示像素i和j的颜色强度;σα、σβ、σγ表示控制高斯核的尺度;第一个高斯核取决于像素位置和像素颜色强度;第二个核只取决于像素位置。可选的,所述根据不同的图像区域建立不同的运动模型,具体包括:当所述图像区域属于所述物体类别时,对应的运动为添加仿射形变的仿射运动,则属于所述物体类别的图像区域的运动模型为:其中,u代表水平方向的运动分量;v代表垂直方向的运动分量;g代表物体所属的标签类别;θ表示输出运动模型的参数;I表示输入图像的灰度;代表输入图像的标签类别;k表示像素所在的图层,k∈{1,2};t表示当前帧时间序号,t+1表示下一帧时间序号;λmotion表示运动项系数;λtime表示时间项系数;λlayer表示层支持项系数;λspace表示空间项系数;utk代表当前帧到下一帧的水平方向的运动分量;vtk代表当前帧到下一帧的垂直方向的运动分量;gtk代表当前帧像素的语义标签层数;It代表当前帧图像的灰度,It+1代表下一帧图像的灰度;θtk代表运动模型的参数,运动模型的参数取决于所处的语义类别;Edata数据项表示为:其中,p表示当前帧的像素点;q表示像素p在下一帧的匹配像素;ρD表示鲁棒惩罚函数;表示当前帧像素p的灰度值;表示下一帧像素q的灰度值;λD表示对遮挡像素的恒定惩罚;表示指示函数;表示当前帧像素p的语义标签,表示下一帧像素q的语义标签,并当时,表示像素p与像素q处于不同的语义标签,发生遮挡,此时Edata同时施加外观一致性和遮挡惩罚;当时,表示像素p与经过运动后的匹配像素q处于相同的语义标签,未发生遮挡,此时Edata仅施加外观一致性;Emotion包含相似运动一致项和全局运动项,表示为:其中,r表示像素p的相邻像素;第一项中Np包含像素p的四个最近邻域,ρ表示运动项惩罚函数,表示当前帧像素p的运动向量,表示当前帧像素r的运动向量,表示当前帧像素p的语义标签,表示当前帧像素r的语义标签,当时,表明像素p与相邻像素r处于同一语义标签,则像素p与相邻像素r具有相似的运动,施加相似运动一致项;第二项中λaff表示仿射运动的平滑系数,ρaff表示添加形变后的仿射运动惩罚函数;表示全局运动模型;Etime时间项鼓励随着时间的推移相应的像素具有相同的层标签,表示为:其中,表示当前帧像素p的语义标签,表示下一帧像素q的语义标签,当时,指示函数当时,指示函数Elayer实现了前景层分割和语义分割之间的相似性,表示为:其中,表示当前帧像素p的语义标签,表示前景物体的分割标签,当时,当时,Espace鼓励分层的空间邻接性,对非相邻空间的像素施加惩罚,表示为:其中,表示空间项的权重系数;表示当前帧像素p的语义标签;表示当前帧像素r的语义标签,当时,不是相邻空间的像素,施加空间惩罚项;当时,像素处于相邻空间;当所述图像区域属于所述平面体类别时,使用单应性将平面运动建模为uplane(x;hi);其中,x是图像序列中的像素点;给定区域i中的初始流向量使用随机抽样一致性算法来鲁棒地估计单应性参数hi;当图像区域属于所述第三类别时所对应的运动模型为每个属于所述第三类别的图像区域中的流场设置为初始流向量。可选的,所述根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数,具体包括:采用预选设定的超像素分割数目对所述双目图像进行分割,得到多个平面;利用洛伦兹惩罚优化能量函数结合所述语义光流和所述视差信息,使用最小二乘法求解所述洛伦兹惩罚优化能量函数的最小化误差的平方和,得到每个平面的运动参数其中,每个平面的运动参数的计算公式为:其中,表示洛伦兹惩罚优化能量函数;T表示由三维坐标到图像坐标的投影算子;p'表示像素p的匹配点;R表示旋转矩阵;t表示平移矩阵;表示法向量;H表示由组成运动平面本文档来自技高网...

【技术保护点】
1.一种基于语义分割的双目场景流确定方法,其特征在于,所述双目场景流确定方法包括:建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;根据所有所述运动模型综合确定所述双目图像的语义光流;采用半全局匹配算法计算所述双目图像的左右目的视差信息;根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。

【技术特征摘要】
1.一种基于语义分割的双目场景流确定方法,其特征在于,所述双目场景流确定方法包括:建立语义分割模型;所述语义分割模型是根据深度卷积神经网络和全连接条件随机场确定的;所述语义分割模型的输入为当前帧双目图像和下一帧双目图像;所述语义分割模型的输出为按照类别分割成的图像区域;所述类别包括物体类别、平面类别以及第三类别;所述第三类别包含的图像区域为双目图像除了所述物体类别和所述平面类别包含的图像区域以外的图像区域;获取双目图像序列;所述双目图像序列包括多帧图像;每帧图像均包括左目图像和右目图像;将所述双目图像序列中任意连续两帧的双目图像输入到所述语义分割模型中,输出不同的图像区域,并根据不同的图像区域建立不同的运动模型;根据所有所述运动模型综合确定所述双目图像的语义光流;采用半全局匹配算法计算所述双目图像的左右目的视差信息;根据所述语义光流和所述视差信息,采用洛伦兹惩罚优化能量函数,计算所述双目图像中多个平面的运动参数;采用融合流算法和二次伪布尔优化算法对所述平面运动参数进行优化处理,确定双目图像序列的场景流。2.根据权利要求1所述的双目场景流确定方法,其特征在于,所述物体类别包括:飞机、火车、汽车、摩托车、人;所述平面类别包括天空、水;所述第三类别包括建筑物、植被。3.根据权利要求1所述的双目场景流确定方法,其特征在于,所述建立语义分割模型,具体包括:采用Caffe深度学习框架训练所述语义分割模型;所述深度卷积神经网络是通过将VGG-16中的全连接层调整为卷积层得到的;在所述深度卷积神经网络深后面连接一个全连接条件随机场;所述全连接条件随机场的能量函数为:其中,x是像素的标签分配,i和j表示图像中两个不同的像素;ξi(xi)=-logP(xi)表示一元势能,是定义在像素i的状态特征函数,用于描述像素i对标签类别的影响;P(xi)是DCNN计算的像素i处的标签分配概率;表示二元势能,定义为不同像素点上的转移特征函数,用于描述像素之间的相关关系,并当xi≠xj,μ(xi,xj)=1,否则,μ(xi,xj)=0;K表示高斯核的个数,ωm表示高斯核的加权参数,km是提取特征的高斯核,fi和fj表示像素i和j提取的特征;高斯核表示为:其中,ω1和ω2表示高斯加权系数;pi和pj表示像素i和j的位置,Ii和Ij表示像素i和j的颜色强度;σα、σβ、σγ表示控制高斯核的尺度;第一个高斯核取决于像素位置和像素颜色强度;第二个核只取决于像素位置。4.根据权利要求3所述的双目场景流确定方法,其特征在于,所述根据不同的图像区域建立不同的运动模型,具体包括:当所述图像区域属于所述物体类别时,对应的运动为添加仿射形变的仿射运动,则属于所述物体类别的图像区域的运动模型为:其中,u代表水平方向的运动分量;v代表垂直方向的运动分量;g代表物体所属的标签类别;θ表示输出运动模型的参数;I表示输入图像的灰度;代表输入图像的标签类别;k表示像素所在的图层,k∈{1,2};t表示当前帧时间序号,t+1表示下一帧时间序号;λmotion表示运动项系数;λtime表示时间项系数;λlayer表示层支持项系数;λspace表示空间项系数;utk代表当前帧到下一帧的水平方向的运动分量;vtk代表当前帧到下一帧的垂直方向的运动分量;gtk代表当前帧像素的语义标签层数;It代表当前帧图像的灰度,It+1代表下一帧图像的灰度;θtk代表运动模型的参数,运动模型的参数取决于所处的语义类别;Edata数据项表示为:其中,p表示当前帧的像素点;q表示像素p在下一帧的匹配像素;ρD表示鲁棒惩罚函数;表示当前帧像素p的灰度值;表示下一帧像素q的灰度值;λD表示对遮挡像素的恒定惩罚;表示指示函数;表示当前帧像素p的语义标签,表示下一帧像素q的语义标签,并当时,表示像素p与像素q处于不同的语义标签,发生遮挡,此时Edata同时施加外观一致性和遮挡惩罚;当时,表示像素p与经过运动后的匹配像素q处于相同的语义标签,未发生遮挡,此时Edata仅施加外观一致性;Emotion包含相似运动一致项和全局运动项,表示为:其中,r表示像素p的相邻像素;第一项中Np包含像素p的四个最近邻域,ρ表示运动项惩罚函数,表示当前帧像素p的运动向量,表示当前帧像素r的运动向量,表示当前帧像素p的语义标签,表示当前帧像素r的语义标签,当时,表明像素p与相邻像素r处于同一语义标签,则像素p与相邻像素r具有相似的运动,施加相似运动一致项;第二项中λaff表示仿射运动的平滑系数,ρaff表示添加形变后的仿射运动惩罚函数;表示全局运动模型;Etime时间项鼓励随着时间的推移相应的像素具有相同的层标签,表示为:其中,表示当前帧像素p的语义标签,表示下一帧像素q的语义标签,当时,指示函数当时,指示函数Elayer实现了前景层分割和语义分割之间的相似性,表示为:其中,表示当前帧像素p的语义标签,表示前景物体的分割标签,当时,当时,Espace鼓励分层的空间邻接性,对非相邻空间的像素施加惩罚,表示为:其中,表示空间项的权重系数;表示当前帧像素p的语义标签;表示当前帧像素r的语义标签,当时,不是相邻空间的像素,施加空间惩罚项;当时,像素处于相邻空间;当所述图像区域属于所述平面体类别时,使用单应性将平面运动建模为uplane(x;hi);其中,x是图像序列中的像素点;给定区域i中的初始流向量使用随机抽样一致性算法来鲁棒地估计单应性参数hi;当图像区域属于所述第三类别时所对应的运动模型为每个属于所述第三类别的图像区域中的流场设置为初始流向量。5....

【专利技术属性】
技术研发人员:陈震马龙张聪炫黎明陈昊危水根
申请(专利权)人:南昌航空大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1