用于单目深度估计的方法和装置制造方法及图纸

技术编号:35742414 阅读:43 留言:0更新日期:2022-11-26 18:46
本申请提供了用于单目深度估计的方法和装置。一种用于单目深度估计的方法,包括:对教师模型进行预先训练;根据经预先训练的教师模型对学生模型进行知识蒸馏,包括将有标签训练样本集输入所述经预先训练的教师模型和所述学生模型,所述有标签训练样本集中的每个有标签训练样本包括第一源图像和对应深度图;使用无标签训练样本集对所述学生模型进行无监督训练以获得训练完成的学生模型,其中所述无标签训练样本集中的每个无标签训练样本包括至少两个第二源图像;以及使用所述训练完成的学生模型对待预测图像进行处理以生成深度图。生模型对待预测图像进行处理以生成深度图。生模型对待预测图像进行处理以生成深度图。

【技术实现步骤摘要】
用于单目深度估计的方法和装置


[0001]本申请一般涉及智能驾驶领域,更具体地,涉及用于单目深度估计的方法和装置。

技术介绍

[0002]单目深度估计在无人驾驶
中得到了广泛的应用,其可以探测前方障碍物的距离,预防碰撞和减少交通事故。单目深度估计通常采用大规模神经网络进行学习来达到较高的精度,但这种方法需要消耗相当大的计算资源,导致计算机设备的处理效率降低。现有的单目深度估计模型的训练需要有标签数据(例如,通过激光雷达获得的深度图),而有标签数据获取比较昂贵,数量会受到限制。使用自监督学习的方法对神经网络模型进行训练,训练过程不需要有标注数据,但是训练出的模型精度低。
[0003]因此亟需能够高效地利用有限的有标签数据和大量的无标签数据来训练单目深度估计神经网络模型的技术方案。

技术实现思路

[0004]针对现有技术中存在的以上技术问题,本申请提供了一种用于单目深度估计的方法,包括:
[0005]对教师模型进行预先训练;
[0006]根据经预先训练的教师模型对学生模型进行知识蒸馏,包括将有标签训练样本集输入所述经预先训练的教师模型和所述学生模型,所述有标签训练样本集中的每个有标签训练样本包括第一源图像和对应深度图;
[0007]使用无标签训练样本集对所述学生模型进行无监督训练以获得训练完成的学生模型,其中所述无标签训练样本集中的每个无标签训练样本包括至少两个第二源图像;以及
[0008]使用所述训练完成的学生模型对待预测图像进行处理以生成深度图。
[0009]可任选地,根据经预先训练的教师模型对学生模型进行知识蒸馏包括:
[0010]迭代执行以下步骤直至对所述学生模型的训练达到第一预设条件:
[0011]将有标签训练样本中的第一源图像输入所述经预先训练的教师模型和所述学生模型;
[0012]使用所述经预先训练的教师模型的输出、所述学生模型的输出和有标签训练样本中的深度图来确定第一损失值,所述第一损失值根据所述经预先训练的教师模型的输出与所述学生模型的输出之间的蒸馏损失值、以及所述学生模型的输出与所述深度图之间的对比损失值来确定;以及
[0013]使用所述第一损失值来调整所述学生模型的参数。
[0014]可任选地,所述学生模型包括深度估计模型和位姿估计模型,对所述学生模型进行无监督训练包括:
[0015]迭代执行以下步骤直至对所述学生模型的训练达到第二预设条件:
[0016]将无标签训练样本输入所述学生模型,所述无标签训练样本包括第一图像和第二图像;
[0017]将所述第一图像输入所述深度估计模型以得到第一深度图;
[0018]将所述第一图像和所述第二图像输入所述位姿估计模型以得到位姿变换矩阵;
[0019]使用所述第一深度图、所述位姿变换矩阵通过反投影和双线性插值以得到重建帧;
[0020]确定所述第二图像和所述重建图像之间的损失值作为第二损失值;以及使用所述第二损失值来调整所述深度估计模型的参数。
[0021]可任选地,所述第一图像和所述第二图像是视频流的连续帧或者双目图像的左图像和右图像。
[0022]可任选地,所述第二损失值是根据光度损失函数确定的。
[0023]可任选地,对教师模型进行预先训练包括:
[0024]使用有标签预训练样本集对所述教师模型进行训练,其中所述有标签预训练样本集中的每个样本包括预训练源图像和对应的深度图。
[0025]可任选地,所述教师模型包括深度估计模型。
[0026]本申请的另一方面提供了一种用于单目深度估计的装置,包括:
[0027]用于对教师模型进行预先训练的模块;
[0028]用于根据经预先训练的教师模型对学生模型进行知识蒸馏的模块,包括用于将有标签训练样本集输入所述经预先训练的教师模型和所述学生模型的模块,所述有标签训练样本集中的每个有标签训练样本包括第一源图像和对应深度图;
[0029]用于使用无标签训练样本集对所述学生模型进行无监督训练以获得训练完成的学生模型的模块,其中所述无标签训练样本集中的每个无标签训练样本包括至少两个第二源图像;以及
[0030]用于使用所述训练完成的学生模型对待预测图像进行处理以生成深度图的模块。
[0031]可任选地,根据经预先训练的教师模型对学生模型进行知识蒸馏包括:
[0032]迭代执行以下步骤直至对所述学生模型的训练达到第一预设条件:
[0033]将有标签训练样本中的第一源图像输入所述经预先训练的教师模型和所述学生模型;
[0034]使用所述经预先训练的教师模型的输出、所述学生模型的输出和有标签训练样本中的深度图来确定第一损失值,所述第一损失值根据所述经预先训练的教师模型的输出与所述学生模型的输出之间的蒸馏损失值、以及所述学生模型的输出与所述深度图之间的对比损失值来确定;以及
[0035]使用所述第一损失值来调整所述学生模型的参数。
[0036]可任选地,所述学生模型包括深度估计模型和位姿估计模型,对所述学生模型进行无监督训练包括:
[0037]迭代执行以下步骤直至对所述学生模型的训练达到第二预设条件:
[0038]将无标签训练样本输入所述学生模型,所述无标签训练样本包括第一图像和第二图像;
[0039]将所述第一图像输入所述深度估计模型以得到第一深度图;
[0040]将所述第一图像和所述第二图像输入所述位姿估计模型以得到位姿变换矩阵;
[0041]使用所述第一深度图、所述位姿变换矩阵通过反投影和双线性插值以得到重建帧;
[0042]确定所述第二图像和所述重建图像之间的损失值作为第二损失值;以及
[0043]使用所述第二损失值来调整所述深度估计模型的参数。
[0044]可任选地,所述第一图像和所述第二图像是视频流的连续帧或者双目图像的左图像和右图像。
[0045]可任选地,所述第二损失值是根据光度损失函数确定的。
[0046]可任选地,对教师模型进行预先训练包括:
[0047]使用有标签预训练样本集对所述教师模型进行训练,其中所述有标签预训练样本集中的每个样本包括预训练源图像和对应的深度图。
[0048]可任选地,所述教师模型包括深度估计模型。
[0049]本申请的又一方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有程序指令;所述处理器运行程序指令实现如以上所述的用于单目深度估计的方法。
[0050]本申请的技术方案能够使用一定量的有标签样本和大量的无标签样本来训练单目深度估计神经网络。一方面,使用教师模型中的单目深度模型训练学生模型中的单目深度模型,使得能够使用结构较为简单的学生模型实现单目深度估计的高准确度,在节省电子设备的资源(例如,处理器资源、存储资源)的同时提高单目深度估计的精度。另一方面,通过迭代多次使用训练样本集直到预定数目的训练步数,进一步提高了训练样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于单目深度估计的方法,包括:对教师模型进行预先训练;根据经预先训练的教师模型对学生模型进行知识蒸馏,包括将有标签训练样本集输入所述经预先训练的教师模型和所述学生模型,所述有标签训练样本集中的每个有标签训练样本包括第一源图像和对应深度图;使用无标签训练样本集对所述学生模型进行无监督训练以获得训练完成的学生模型,其中所述无标签训练样本集中的每个无标签训练样本包括至少两个第二源图像;以及使用所述训练完成的学生模型对待预测图像进行处理以生成深度图。2.如权利要求1所述的方法,其中根据经预先训练的教师模型对学生模型进行知识蒸馏包括:迭代执行以下步骤直至对所述学生模型的训练达到第一预设条件:将有标签训练样本中的第一源图像输入所述经预先训练的教师模型和所述学生模型;使用所述经预先训练的教师模型的输出、所述学生模型的输出和有标签训练样本中的深度图来确定第一损失值,所述第一损失值根据所述经预先训练的教师模型的输出与所述学生模型的输出之间的蒸馏损失值、以及所述学生模型的输出与所述深度图之间的对比损失值来确定;以及使用所述第一损失值来调整所述学生模型的参数。3.如权利要求1所述的方法,其中所述学生模型包括深度估计模型和位姿估计模型,对所述学生模型进行无监督训练包括:迭代执行以下步骤直至对所述学生模型的训练达到第二预设条件:将无标签训练样本输入所述学生模型,所述无标签训练样本包括第一图像和第二图像;将所述第一图像输入所述深度估计模型以得到第一深度图;将所述第一图像和所述第二图像输入所述位姿估计模型以得到位姿变换矩阵;使用所述第一深度图、所述位姿变换矩阵通过反投影和双线性插值以得到重建帧;确定所述第二图像和所述重建图像之间的损失值作为第二损失值;以及使用所述第二损失值来调整所述深度估计模型的参数。4.如权利要求3所述的方法,所述第一图像和所述第二图像是视频流的连续帧或者双目图像的左图像和右图像。5.如权利要求3所述的方法,其中所述第二损失值是根据光度损失函数确定的。6.如权利要求1所述的方法,其中对教师模型进行预先训练包括:使用有标签预训练样本集对所述教师模型进行训练,其中所述有标签预训练样本集中的每个样本包括预训练源图像和对应的深度图。7.如权利要求1所述的方法,其中所述教师模型包括深度估计模型。8.一种用于单目深度估计的装置,包括:用于对教师模型进行预先训练的模块;用于根据经预先训练的教师模型对学生模型进行知识蒸馏...

【专利技术属性】
技术研发人员:范志刚吴子章
申请(专利权)人:纵目科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1