深度引导变形器的单目三维目标检测模型训练方法及装置制造方法及图纸

技术编号:34386582 阅读:16 留言:0更新日期:2022-08-03 21:09
本申请提供一种深度引导变形器的单目三维目标检测模型训练方法及装置,该方法包括:根据各个三维包围框中心点坐标及其绝对深度值训练得到第一模型;通过第一模型变换各个原始深度图,得到各个目标深度图,通过移窗视觉变形器网络融合各个目标深度图及其单目三维图像,得到各个高阶图像特征;通过预设锚框提取各个高阶图像特征的各个建议框,通过预设算法计算各个建议框的损失值;根据各个损失值计算全局损失值,结合预设模型训练方法进行模型训练,得到单目三维目标检测模型。本申请实施例提供的深度引导变形器的单目三维目标检测模型训练方法得到携带深度信息的单目三维目标检测模型,通过单目三维目标检测模型提升了单目三维目标的检测性能。单目三维目标的检测性能。单目三维目标的检测性能。

【技术实现步骤摘要】
深度引导变形器的单目三维目标检测模型训练方法及装置


[0001]本申请涉及计算机视觉和模式识别
,尤其涉及一种深度引导变形器的单目三维目标检测模型训练方法及装置。

技术介绍

[0002]目标检测是计算机视觉中一项基本而重要的任务,而三维目标检测在机器人感知、混合现实和自动驾驶领域有着非常重要的应用。大多数现有的三维物体检测方法依靠激光雷达传感器提供深度信息,然而激光雷达成本较高、寿命较短,限制了其在工业中的应用。与之相比,相机成本低、寿命长,且易于安装,因此单目三维目标检测技术十分受到关注。但由于单目三维图像中天然缺乏深度信息,给单目三维目标检测任务带来了巨大的挑战,如何提升单目三维目标的检测性能成为现阶段需要研究的问题。
[0003]上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本申请提供一种深度引导变形器的单目三维目标检测模型训练方法及装置,旨在训练出携带有深度信息的单目三维目标检测模型,提升单目三维目标的检测性能。
[0005]第一方面,本申请提供一种深度引导变形器的单目三维目标检测模型训练方法,包括:
[0006]根据训练集中各个单目三维图像的三维包围框中心点坐标,确定各个所述单目三维图像的原始深度图的绝对深度值,并根据各个所述三维包围框中心点坐标和各个所述绝对深度值训练得到第一模型;
[0007]通过所述第一模型对各个所述原始深度图进行变换,得到各个目标深度图,并通过移窗视觉变形器网络将各个所述目标深度图及其单目三维图像进行融合,得到各个高阶图像特征;
[0008]通过预设锚框提取各个所述高阶图像特征的候选特征区域,得到各个建议框,并通过预设算法计算各个所述建议框的损失值;
[0009]根据各个所述损失值计算全局损失值,并结合预设模型训练方法进行模型训练,得到单目三维目标检测模型。
[0010]在一个实施例中,所述通过预设算法计算各个所述建议框的损失值,包括:
[0011]通过所述移窗视觉变形器网络对各个所述建议框进行预测,得到各个所述建议框的物体类别概率;
[0012]结合交叉熵损失函数和各个所述物体类别概率,计算各个所述建议框与真实类别的各个第一损失值;
[0013]确定各个所述建议框的各维度参数,并结合预设损失函数计算出各个所述建议框与各维度真实框之间的第二损失值。
[0014]所述确定各个所述建议框的各维度参数,并结合预设损失函数计算出各个所述建议框与各维度真实框之间的第二损失值,包括:
[0015]通过所述移窗视觉变形器网络的回归建议框确定各个所述建议框的二维参数和三维参数;
[0016]通过SmoothL1损失函数结合各个所述二维参数,计算出各个所述建议框与二维真实框的二维损失值;
[0017]通过所述SmoothL1损失函数结合各个所述三维参数,计算出各个所述建议框与三维真实框的三维损失值;
[0018]将各个所述二维损失值和各个所述三维损失值,确定为各个所述第二损失值。
[0019]所述根据各个所述损失值计算全局损失值,并结合预设模型训练方法进行模型训练,得到单目三维目标检测模型之后,还包括:
[0020]通过预设单目深度估计模型提取待检测单目三维图像的原始深度图;
[0021]通过所述第一模型对所述待检测单目三维图像的原始深度图进行变换,得到所述待检测单目三维图像的目标深度图;
[0022]将所述待检测单目三维图像及其目标深度图归一化为预设大小,得到归一化后的待检测单目三维图像及其目标深度图;
[0023]通过所述单目三维目标检测模型对所述归一化后的待检测单目三维图像及其目标深度图进行目标检测,得到目标检测结果;
[0024]将所述目标检测结果与预设测试数据标签进行对比,根据对比结果确定所述单目三维目标检测模型的目标检测性能。
[0025]所述根据训练集中各个单目三维图像的三维包围框中心点坐标,确定各个所述单目三维图像的原始深度图的绝对深度值,并根据各个所述三维包围框中心点坐标和各个所述绝对深度值训练得到第一模型,包括:
[0026]通过投影矩阵将各个所述三维包围框中心点坐标投影至图像平面中,确定各个二维中心点坐标;
[0027]在各个所述单目三维图像的原始深度图中,确定与各个所述二维中心点坐标对应的坐标的绝对深度值;
[0028]通过归一化流将各个所述三维包围框中心点坐标的深度分布和各个所述绝对深度值的深度分布进行预设次拟合训练,得到所述第一模型。
[0029]所述通过移窗视觉变形器网络将各个所述目标深度图及其单目三维图像进行融合,得到各个高阶图像特征,包括:
[0030]通过所述移窗视觉变形器网络提取各个所述目标深度图的查询特征,以及各个所述目标深度图对应的单目三维图像的键特征;
[0031]通过所述移窗视觉变形器网络的交叉注意力机制将各个所述查询特征和各个所述键特征进行融合,得到各个注意力特征;
[0032]通过所述移窗视觉变形器网络的窗口不同位置的深度关系,对各个所述注意力特征进行加权,得到所述高阶图像特征。
[0033]所述根据训练集中各个单目三维图像的三维包围框中心点坐标,确定各个所述单目三维图像的原始深度图的绝对深度值,并根据各个所述三维包围框中心点坐标和各个所
述绝对深度值训练得到第一模型之前,还包括:
[0034]通过预设单目深度估计模型提取各个单目三维图像的原始深度图,基于各个所述单目三维图像及其原始深度图,构建训练集。
[0035]第二方面,本申请还提供一种深度引导变形器的单目三维目标检测模型训练装置包括:
[0036]确定训练模块,用于根据训练集中各个单目三维图像的三维包围框中心点坐标,确定各个所述单目三维图像的原始深度图的绝对深度值,并根据各个所述三维包围框中心点坐标和各个所述绝对深度值训练得到第一模型;
[0037]变换融合模块,用于通过所述第一模型对各个所述原始深度图进行变换,得到各个目标深度图,并通过移窗视觉变形器网络将各个所述目标深度图及其单目三维图像进行融合,得到各个高阶图像特征;
[0038]提取计算模块,用于通过预设锚框提取各个所述高阶图像特征的候选特征区域,得到各个建议框,并通过预设算法计算各个所述建议框的损失值;
[0039]计算训练模块,用于根据各个所述损失值计算全局损失值,并结合预设模型训练方法进行模型训练,得到单目三维目标检测模型。
[0040]第三方面,本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述深度引导变形器的单目三维目标检测模型训练方法。
[0041]第四方面,本申请还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述深度引本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度引导变形器的单目三维目标检测模型训练方法,其特征在于,包括:根据训练集中各个单目三维图像的三维包围框中心点坐标,确定各个所述单目三维图像的原始深度图的绝对深度值,并根据各个所述三维包围框中心点坐标和各个所述绝对深度值训练得到第一模型;通过所述第一模型对各个所述原始深度图进行变换,得到各个目标深度图,并通过移窗视觉变形器网络将各个所述目标深度图及其单目三维图像进行融合,得到各个高阶图像特征;通过预设锚框提取各个所述高阶图像特征的候选特征区域,得到各个建议框,并通过预设算法计算各个所述建议框的损失值;根据各个所述损失值计算全局损失值,并结合预设模型训练方法进行模型训练,得到单目三维目标检测模型。2.根据权利要求1所述的深度引导变形器的单目三维目标检测模型训练方法,其特征在于,所述通过预设算法计算各个所述建议框的损失值,包括:通过所述移窗视觉变形器网络对各个所述建议框进行预测,得到各个所述建议框的物体类别概率;结合交叉熵损失函数和各个所述物体类别概率,计算各个所述建议框与真实类别的各个第一损失值;确定各个所述建议框的各维度参数,并结合预设损失函数计算出各个所述建议框与各维度真实框之间的第二损失值。3.根据权利要求2所述的深度引导变形器的单目三维目标检测模型训练方法,其特征在于,所述确定各个所述建议框的各维度参数,并结合预设损失函数计算出各个所述建议框与各维度真实框之间的第二损失值,包括:通过所述移窗视觉变形器网络的回归建议框确定各个所述建议框的二维参数和三维参数;通过SmoothL1损失函数结合各个所述二维参数,计算出各个所述建议框与二维真实框的二维损失值;通过所述SmoothL1损失函数结合各个所述三维参数,计算出各个所述建议框与三维真实框的三维损失值;将各个所述二维损失值和各个所述三维损失值,确定为各个所述第二损失值。4.根据权利要求1所述的深度引导变形器的单目三维目标检测模型训练方法,其特征在于,所述根据各个所述损失值计算全局损失值,并结合预设模型训练方法进行模型训练,得到单目三维目标检测模型之后,还包括:通过预设单目深度估计模型提取待检测单目三维图像的原始深度图;通过所述第一模型对所述待检测单目三维图像的原始深度图进行变换,得到所述待检测单目三维图像的目标深度图;将所述待检测单目三维图像及其目标深度图归一化为预设大小,得到归一化后的待检测单目三维图像及其目标深度图;通过所述单目三维目标检测模型对所述归一化后的待检测单目三维图像及其目标深度图进行目标检测,得到目标检测结果;
将所述目标检测结果与预设测试数据标签进行对比,根据对比结果确定所述单目三维目标检测模型的目标检测性能。5.根据权利要求1所述的深度引导变形器的单目三维目标检测模型训练方法,其特征在于,所述根据训练集中各个单目三维图像的三维包围框中心点坐标,确定各个所述单目三维图像的原始深度图的绝对深度值,并根据各个所述三维包围框中心点坐标和各个所述绝对深度值训练得到第一模型,包括:通过投影矩阵将各个所述三维包围框中心点坐标投影至图像平面中,确定各个二维中心点坐标;在各个所述单目三维图像的原始深度图中,确...

【专利技术属性】
技术研发人员:张兆翔潘聪
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1