The present disclosure discloses an unsupervised training method, apparatus and storage medium for a three-dimensional scene recognition network, wherein the method includes: obtaining depth information of a first image in a video stream fragment; processing the video stream fragment to obtain a first image relative to a second image in the video stream fragment Camera attitude information; the 3D scene recognition network is trained based on the depth information and the camera attitude information.
【技术实现步骤摘要】
三维场景识别网络的无监督训练方法、装置及存储介质
本公开涉及计算机视觉
,具体涉及一种三维场景识别网络的无监督训练方法、装置及存储介质。
技术介绍
通过图像或视频理解场景的几何结构是计算机视觉中的重要问题,其在自动驾驶领域中具有重要应用。传统的几何理解算法通常基于手工设计的特征算子,在极端情况,例如剧烈旋转,阴暗光照,反射性区域等通常失效。为了利用高层的信息,深度学习算法逐渐在相关领域崭露头角。
技术实现思路
有鉴于此,本公开提供一种三维场景识别网络的无监督训练方法、装置及存储介质,能够实现利用对三维场景识别网络的无监督训练。第一方面,本公开实施例提供了一种三维场景识别网络的无监督训练方法,所述方法包括:获得视频流片段中的第一图像的深度信息;对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。上述方案中,可选地,所述基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络,包括:基于所述深度信息和所述相机姿态信息,确定所述第一图像到所述第二图像的刚性光流;基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络;其中,所述基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络,包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第二图像的第一合成图像;基于所述第二图像的第一合成图像与所述第二图像之间的第一误差,训练所述三维场景识别网络。上述方案中,可选地,所述方法还包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第一图像 ...
【技术保护点】
1.一种三维场景识别网络的无监督训练方法,其特征在于,所述方法包括:获得视频流片段中的第一图像的深度信息;对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。
【技术特征摘要】
1.一种三维场景识别网络的无监督训练方法,其特征在于,所述方法包括:获得视频流片段中的第一图像的深度信息;对所述视频流片段进行处理,得到所述第一图像相对于所述视频流片段中第二图像的相机姿态信息;基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络。2.根据权利要求1所述的方法,其特征在于,所述基于所述深度信息和所述相机姿态信息,训练所述三维场景识别网络,包括:基于所述深度信息和所述相机姿态信息,确定所述第一图像到所述第二图像的刚性光流;基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络;其中,所述基于所述第一图像到所述第二图像的刚性光流,训练所述三维场景识别网络,包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第二图像的第一合成图像;基于所述第二图像的第一合成图像与所述第二图像之间的第一误差,训练所述三维场景识别网络。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:基于所述第一图像到所述第二图像的刚性光流,得到所述第一图像到所述第二图像的残差光流;基于残差光流和所述刚性光流,得到所述第一图像到所述第二图像的预测光流;基于所述第一图像到所述第二图像的预测光流,训练所述三维场景识别网络。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:确定所述第二图像到所述第一图像的预测光流;基于所述第一图像到所述第二图像的预测光流与所述第二图像到所述第一图像的预测光流之间的第三误差,训练所述三维场景识别网络。5.一种三维场景识别网络的无监督训练装置,其特征在于,所述装置包括:第一获取模块,用于获得视频流片段中的第一图像的深度信息;第二获取模块,用于对所述视频流片段进行处理,得到所述第一图像相对...
【专利技术属性】
技术研发人员:殷志超,石建萍,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。