三维场景识别网络的无监督训练方法、装置及存储介质制造方法及图纸

技术编号:18861503 阅读:19 留言:0更新日期:2018-09-05 14:42
本公开公开了一种三维场景识别网络的无监督训练方法、装置及存储介质,其中,所述的方法包括:获得视频流片段中的第一图像的深度信息;对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。

Unsupervised training method, device and storage medium for 3D scene recognition network

The present disclosure discloses an unsupervised training method, apparatus and storage medium for a three-dimensional scene recognition network, wherein the method includes: obtaining depth information of a first image in a video stream fragment; processing the video stream fragment to obtain a first image relative to a second image in the video stream fragment Camera attitude information; the 3D scene recognition network is trained based on the depth information and the camera attitude information.

【技术实现步骤摘要】
三维场景识别网络的无监督训练方法、装置及存储介质
本公开涉及计算机视觉
,具体涉及一种三维场景识别网络的无监督训练方法、装置及存储介质。
技术介绍
通过图像或视频理解场景的几何结构是计算机视觉中的重要问题,其在自动驾驶领域中具有重要应用。传统的几何理解算法通常基于手工设计的特征算子,在极端情况,例如剧烈旋转,阴暗光照,反射性区域等通常失效。为了利用高层的信息,深度学习算法逐渐在相关领域崭露头角。
技术实现思路
有鉴于此,本公开提供一种三维场景识别网络的无监督训练方法、装置及存储介质,能够实现利用对三维场景识别网络的无监督训练。第一方面,本公开实施例提供了一种三维场景识别网络的无监督训练方法,所述方法包括:获得视频流片段中的第一图像的深度信息;对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。上述方案中,可选地,所述基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络,包括:基于所述深度信息和所述相机姿态信息,确定所述第一图像到所述第二图像的刚性光流;基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络;其中,所述基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络,包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第二图像的第一合成图像;基于所述第二图像的第一合成图像与所述第二图像之间的第一误差,训练所述三维场景识别网络。上述方案中,可选地,所述方法还包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第一图像到所述第二图像的残差光流;基于残差光流和所述刚性光流,得到所述第一图像到所述第二图像的预测光流;基于所述第一图像到所述第二图像的预测光流,训练所述三维场景识别网络。上述方案中,可选地,所述基于所述第一图像到所述第二图像的刚性光流,得到第一图像到所述第二图像的残差光流,包括:基于所述第一图像、所述第二图像、所述第二图像的第一合成图像相对于所述第二图像的第一误差以及所述第一图像到所述第二图像的刚性光流,得到所述第一图像到所述第二图像的残差光流。上述方案中,可选地,所述基于所述第一图像到所述第二图像的预测光流,训练所述三维场景识别网络,包括:基于所述第一图像到所述第二图像的预测光流,得到所述第二图像的第二合成图像;基于所述第二图像的第二合成图像与所述第二图像之间的第二误差,训练所述三维场景识别网络。上述方案中,可选地,所述方法还包括:确定所述第二图像到所述第一图像的预测光流;基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差,训练所述三维场景识别网络。上述方案中,可选地,所述基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差,训练所述三维场景识别网络,包括:基于所述第二图像中的多个像素点中每个像素点对应的所述第三误差的数值,将所述每个像素点划分到异常区域或正常区域;基于所述第二图像中的多个像素点中每个像素点所属的区域,确定所述每个像素点的损失函数权重。上述方案中,可选地,所述对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息,包括:对所述视频流片段中的多帧图像进行卷积操作,得到所述视频流片段对应的特征图;对所述特征图进行平均池化处理,得到所述第一图像相对于所述第二图像的相机姿态。第二方面,本公开实施例提供了一种三维场景识别网络的无监督训练装置,所述装置包括:第一获取模块,用于获得视频流片段中的第一图像的深度信息;第二获取模块,用于对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;第一训练模块,用于基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。上述方案中,可选地,所述第一训练模块,具体用于:基于所述深度信息和所述相机姿态信息,确定所述第一图像到所述第二图像的刚性光流;基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络;所述第一训练模块,还具体用于:基于所述第一图像到所述第二图像的刚性光流,得到所述第二图像的第一合成图像;基于所述第二图像的第一合成图像与所述第二图像之间的第一误差,训练所述三维场景识别网络。上述方案中,可选地,所述装置还包括:第二训练模块,用于:基于所述第一图像到所述第二图像的刚性光流,得到所述第一图像到所述第二图像的残差光流;基于残差光流和所述刚性光流,得到所述第一图像到所述第二图像的预测光流;基于所述第一图像到所述第二图像的预测光流,训练所述三维场景识别网络。上述方案中,可选地,所述第二训练模块,具体用于:基于所述第一图像、所述第二图像、所述第二图像的第一合成图像相对于所述第二图像的第一误差以及所述第一图像到所述第二图像的刚性光流,得到所述第一图像到所述第二图像的残差光流。上述方案中,可选地,所述第二训练模块,还具体用于:基于所述第一图像到所述第二图像的预测光流,得到所述第二图像的第二合成图像;基于所述第二图像的第二合成图像与所述第二图像之间的第二误差,训练所述三维场景识别网络。上述方案中,可选地,所述装置还包括:第三训练模块,用于:确定所述第二图像到所述第一图像的预测光流;基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差,训练所述三维场景识别网络。上述方案中,可选地,所述第三训练模块,具体用于:基于所述第二图像中的多个像素点中每个像素点对应的所述第三误差的数值,将所述每个像素点划分到异常区域或正常区域;基于所述第二图像中的多个像素点中每个像素点所属的区域,确定所述每个像素点的损失函数权重。上述方案中,可选地,所述第二获取模块,具体用于:对所述视频流片段中的多帧图像进行卷积操作,得到所述视频流片段对应的特征图;对所述特征图进行平均池化处理,得到所述第一图像相对于所述第二图像的相机姿态。第三方面,本公开实施例还提供了一种三维场景识别网络的无监督训练装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本公开实施例所述的三维场景识别网络的无监督训练方法的步骤。第四方面,本公开实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行之后,能够实现上文所述的三维场景识别网络的无监督训练方法。本公开实施例提供的技术方案,获得视频流片段中的第一图像的深度信息,对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息,基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络,能充分利用几何信息之间的关联关系,从而有利于提高三维场景识别网络的处理性能和鲁棒性。附图说明图1为本公开实施例提供的一种三维场景识别网络的无监督训练方法的实现流程示意图;图2为本公开实施例提供的三维场景识别网络的无监督训练的一种具体框架示意图;图3为本公开实施例提供的三维场景识别网络的无监督训练的另一种具体框架示意图;图4为本公开实施例提供的一种三维场景识别网络的无监督训练装置的组成结构示意图。具体实施方式目前的深度学习算法大多依赖于高本文档来自技高网...

【技术保护点】
1.一种三维场景识别网络的无监督训练方法,其特征在于,所述方法包括:获得视频流片段中的第一图像的深度信息;对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。

【技术特征摘要】
1.一种三维场景识别网络的无监督训练方法,其特征在于,所述方法包括:获得视频流片段中的第一图像的深度信息;对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。2.根据权利要求1所述的方法,其特征在于,所述基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络,包括:基于所述深度信息和所述相机姿态信息,确定所述第一图像到所述第二图像的刚性光流;基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络;其中,所述基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络,包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第二图像的第一合成图像;基于所述第二图像的第一合成图像与所述第二图像之间的第一误差,训练所述三维场景识别网络。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第一图像到所述第二图像的残差光流;基于残差光流和所述刚性光流,得到所述第一图像到所述第二图像的预测光流;基于所述第一图像到所述第二图像的预测光流,训练所述三维场景识别网络。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:确定所述第二图像到所述第一图像的预测光流;基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差,训练所述三维场景识别网络。5.一种三维场景识别网络的无监督训练装置,其特征在于,所述装置包括:第一获取模块,用于获得视频流片段中的第一图像的深度信息;第二获取模块,用于对所述视频流片段进行处理,得到所述第一图像相对...

【专利技术属性】
技术研发人员:殷志超石建萍
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1