The embodiment of the present invention provides a learning method, device and electronic device for scene structure. The method includes: acquiring training sample set, which includes multiple consecutive image frames of each scene; inputting multiple consecutive image frames into the training model to obtain prediction depth information and prediction semantics information output by the training model, in which the training model includes at least depth information. Degree estimation network and semantically partitioned network; according to the first loss function of depth estimation network and the second loss function of semantically partitioned network, the training model is trained and the trained model is obtained; among them, the first loss function is determined according to the predicted depth information and the predicted semantics information; this method realizes the end-to-end training process and improves the scene of the training model. In addition, when forecasting the depth information of the scene, the semantic information of the scene is used as a priori information, which further improves the accuracy of the recognition of the scene structure of the training model.
【技术实现步骤摘要】
场景结构的学习方法、装置及电子设备
本专利技术实施例涉及人工智能
,尤其涉及一种场景结构的学习方法、装置及电子设备。
技术介绍
语义分割是人工智能领域的一个重要分支,是机器视觉技术中关于图像理解的重要一环。语义分割是机器自动分割并识别出图像中的内容,是理解图像的基础。语义分割在自动驾驶系统、无人机应用中具有重要意义。例如:在自动驾驶技术中,在车载摄像头探测到行人、车辆、树木和电线杆等障碍物后,通过对图像进行语义分割,提示驾驶员采取相应的避让措施。在无人机技术中,在无人机上安装摄像头,无人机通过拍摄周边环境,利用语义分割技术对环境中的建筑物、植物、道路等进行分割,从而判断着陆点。对图像进行语义分割的过程,就是对图像中的场景结构进行分割和识别的过程。现有技术中,对图像中的场景结构进行分割和识别时,通常采用运动恢复结构(Structurefrommotion)的方法,即通过分析图像序列得到相机参数并进行三维重建的技术。具体包括:对图像进行特征提取,根据提取的特征估计场景的初始结构和相机运动,然后对相机进行标定,得到场景的稠密描述,从而推理得到场景中的几何结构、深度等信息。然而,上述的现有技术,对场景结构识别准确率较低。
技术实现思路
本专利技术实施例提供一种场景结构的学习方法、装置及电子设备,用以提高场景结构的识别准确率。第一方面,本专利技术实施例提供一种场景结构的学习方法,包括:获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度 ...
【技术保护点】
1.一种场景结构的学习方法,其特征在于,包括:获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度估计网络和语义分割网络;根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型;其中,所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。
【技术特征摘要】
1.一种场景结构的学习方法,其特征在于,包括:获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度估计网络和语义分割网络;根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型;其中,所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。2.根据权利要求1所述的方法,其特征在于,所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练之前,所述方法还包括:根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数;根据所述语义分割网络的交叉熵损失确定第二损失函数。3.根据权利要求2所述的方法,其特征在于,所述根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数,包括:根据所述训练模型输出的预测深度信息和所述图像帧的真实深度信息,获取第一损失子函数;根据相邻两个图像帧之间的重投影误差,获取第二损失子函数;根据所述训练模型输出的预测语义信息和所述图像帧的真实语义信息,获取第三损失子函数;根据所述第一损失子函数、所述第二损失子函数以及所述第三损失子函数确定所述第一损失函数。4.根据权利要求2所述的方法,其特征在于,所述根据相邻两个图像帧之间的重投影误差,获取第二损失子函数,包括:根据所述深度估计网络输出的预测深度信息,获取每一帧图像对应的三维点云;根据每一帧图像对应的三维点云,得到所述场景的三维点云;根据所述场景的三维点云和所述预测语...
【专利技术属性】
技术研发人员:何雷,侯瑞杰,沈莉霞,杨光垚,彭亮,董芳芳,宋适宇,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。