场景结构的学习方法、装置及电子设备制造方法及图纸

技术编号:20920529 阅读:22 留言:0更新日期:2019-04-20 10:32
本发明专利技术实施例提供一种场景结构的学习方法、装置及电子设备,该方法包括:获取训练样本集,训练样本集包括每个场景的多个连续的图像帧;将多个连续的图像帧输入至训练模型中,得到训练模型输出的预测深度信息和预测语义信息,其中,训练模型至少包括深度估计网络和语义分割网络;根据深度估计网络的第一损失函数和语义分割网络的第二损失函数,对训练模型进行训练,得到训练后的模型;其中,第一损失函数是根据预测深度信息和预测语义信息确定的;该方法实现了端到端的训练过程,提高了训练模型的场景结构的识别准确性;另外,在对场景深度信息进行预测时,还将场景的语义信息作为先验信息,进一步提高了训练模型的场景结构的识别准确性。

Learning Method, Device and Electronic Equipment of Scene Structure

The embodiment of the present invention provides a learning method, device and electronic device for scene structure. The method includes: acquiring training sample set, which includes multiple consecutive image frames of each scene; inputting multiple consecutive image frames into the training model to obtain prediction depth information and prediction semantics information output by the training model, in which the training model includes at least depth information. Degree estimation network and semantically partitioned network; according to the first loss function of depth estimation network and the second loss function of semantically partitioned network, the training model is trained and the trained model is obtained; among them, the first loss function is determined according to the predicted depth information and the predicted semantics information; this method realizes the end-to-end training process and improves the scene of the training model. In addition, when forecasting the depth information of the scene, the semantic information of the scene is used as a priori information, which further improves the accuracy of the recognition of the scene structure of the training model.

【技术实现步骤摘要】
场景结构的学习方法、装置及电子设备
本专利技术实施例涉及人工智能
,尤其涉及一种场景结构的学习方法、装置及电子设备。
技术介绍
语义分割是人工智能领域的一个重要分支,是机器视觉技术中关于图像理解的重要一环。语义分割是机器自动分割并识别出图像中的内容,是理解图像的基础。语义分割在自动驾驶系统、无人机应用中具有重要意义。例如:在自动驾驶技术中,在车载摄像头探测到行人、车辆、树木和电线杆等障碍物后,通过对图像进行语义分割,提示驾驶员采取相应的避让措施。在无人机技术中,在无人机上安装摄像头,无人机通过拍摄周边环境,利用语义分割技术对环境中的建筑物、植物、道路等进行分割,从而判断着陆点。对图像进行语义分割的过程,就是对图像中的场景结构进行分割和识别的过程。现有技术中,对图像中的场景结构进行分割和识别时,通常采用运动恢复结构(Structurefrommotion)的方法,即通过分析图像序列得到相机参数并进行三维重建的技术。具体包括:对图像进行特征提取,根据提取的特征估计场景的初始结构和相机运动,然后对相机进行标定,得到场景的稠密描述,从而推理得到场景中的几何结构、深度等信息。然而,上述的现有技术,对场景结构识别准确率较低。
技术实现思路
本专利技术实施例提供一种场景结构的学习方法、装置及电子设备,用以提高场景结构的识别准确率。第一方面,本专利技术实施例提供一种场景结构的学习方法,包括:获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度估计网络和语义分割网络;根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型;其中,所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。可选的,所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练之前,所述方法还包括:根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数;根据所述语义分割网络的交叉熵损失确定第二损失函数。可选的,所述根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数,包括:根据所述训练模型输出的预测深度信息和所述图像帧的真实深度信息,获取第一损失子函数;根据相邻两个图像帧之间的重投影误差,获取第二损失子函数;根据所述训练模型输出的预测语义信息和所述图像帧的真实语义信息,获取第三损失子函数;根据所述第一损失子函数、所述第二损失子函数以及所述第三损失子函数确定所述第一损失函数。可选的,所述根据相邻两个图像帧之间的重投影误差,获取第二损失子函数,包括:根据所述深度估计网络输出的预测深度信息,获取每一帧图像对应的三维点云;根据每一帧图像对应的三维点云,得到所述场景的三维点云;根据所述场景的三维点云和所述预测语义信息,得到场景中的结构的三维点云;根据所述场景中的结构的三维点云在平面上的投影分布方差,得到第二损失函数。可选的,所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型,包括:根据所述第一损失函数和所述第二损失函数,获取整体损失函数;根据所述整体损失函数对所述训练模型进行训练,在所述整体损失函数的值达到预设条件时停止训练,得到训练后的模型。可选的,所述预设条件为相邻两次训练对应的整体损失函数的值的差值小于预设值。可选的,所述训练模型为深度神经网络。第二方面,本专利技术实施例提供一种场景结构的学习装置,包括:第一获取模块,用于获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;第二获取模块,用于将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度估计网络和语义分割网络;训练模块,用于根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型;其中,所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。可选的,所述装置还包括:确定模块,用于:根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数;根据所述语义分割网络的交叉熵损失确定第二损失函数。可选的,所述确定模块具体用于:根据所述训练模型输出的预测深度信息和所述图像帧的真实深度信息,获取第一损失子函数;根据相邻两个图像帧之间的重投影误差,获取第二损失子函数;根据所述训练模型输出的预测语义信息和所述图像帧的真实语义信息,获取第三损失子函数;根据所述第一损失子函数、所述第二损失子函数以及所述第三损失子函数确定所述第一损失函数。可选的,所述确定模块具体用于:根据所述深度估计网络输出的预测深度信息,获取每一帧图像对应的三维点云;根据每一帧图像对应的三维点云,得到所述场景的三维点云;根据所述场景的三维点云和所述预测语义信息,得到场景中的结构的三维点云;根据所述场景中的结构的三维点云在平面上的投影分布方差,得到第二损失函数。可选的,所述训练模块具体用于:根据所述第一损失函数和所述第二损失函数,获取整体损失函数;根据所述整体损失函数对所述训练模型进行训练,在所述整体损失函数的值达到预设条件时停止训练,得到训练后的模型。可选的,所述预设条件为相邻两次训练对应的整体损失函数的值的差值小于预设值。可选的,所述训练模型为深度神经网络。第三方面,本专利技术实施例提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的方法。本专利技术实施例提供的场景结构的学习方法、装置及电子设备,该方法包括:获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度估计网络和语义分割网络;根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型;其中,所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的;实现了端到端的训练过程,提高了训练模型的场景结构的识别准确性;另外,在对场景深度信息进行预测时,还将场景的语义信息作为先验信息,提高了场景深度的预测精度,从而进一步提高了训练模型的场景结构的识别准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的场景结构的识别过程本文档来自技高网...

【技术保护点】
1.一种场景结构的学习方法,其特征在于,包括:获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度估计网络和语义分割网络;根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型;其中,所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。

【技术特征摘要】
1.一种场景结构的学习方法,其特征在于,包括:获取训练样本集,所述训练样本集包括每个场景的多个连续的图像帧;将所述多个连续的图像帧输入至训练模型中,得到所述训练模型输出的预测深度信息和预测语义信息,其中,所述训练模型至少包括深度估计网络和语义分割网络;根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练,得到训练后的模型;其中,所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。2.根据权利要求1所述的方法,其特征在于,所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数,对所述训练模型进行训练之前,所述方法还包括:根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数;根据所述语义分割网络的交叉熵损失确定第二损失函数。3.根据权利要求2所述的方法,其特征在于,所述根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数,包括:根据所述训练模型输出的预测深度信息和所述图像帧的真实深度信息,获取第一损失子函数;根据相邻两个图像帧之间的重投影误差,获取第二损失子函数;根据所述训练模型输出的预测语义信息和所述图像帧的真实语义信息,获取第三损失子函数;根据所述第一损失子函数、所述第二损失子函数以及所述第三损失子函数确定所述第一损失函数。4.根据权利要求2所述的方法,其特征在于,所述根据相邻两个图像帧之间的重投影误差,获取第二损失子函数,包括:根据所述深度估计网络输出的预测深度信息,获取每一帧图像对应的三维点云;根据每一帧图像对应的三维点云,得到所述场景的三维点云;根据所述场景的三维点云和所述预测语...

【专利技术属性】
技术研发人员:何雷侯瑞杰沈莉霞杨光垚彭亮董芳芳宋适宇
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1