基于弱监督学习的多粒度多模态3D目标检测方法及系统技术方案

技术编号:34863789 阅读:15 留言:0更新日期:2022-09-08 08:07
本发明专利技术提出一种基于弱监督学习的多粒度多模态3D目标检测方法及系统,结合多粒度位置表征方法和预先制定的一致性约束条件,利用不同位置表示方法目标位置描述的精准程度不同的特点,将3D目标检测分解成粗粒度3D目标检测和细粒度3D关键点定位两个逐层递进的子任务;根据粗粒度3D目标检测获得的粗粒度检测结果进一步进行细粒度3D关键点定位,估计目标局部区域上的3D关键点坐标,输出视频中目标3D位置和3D关键点信息。通过上述方案解决航空器侵入跑道引起的跑道安全隐患。能够在标注数据有限的条件下,对跑道区域目标进行自动分析,包括图像层面和空间层面目标的精准定位和姿态估计等任务,实现对跑道侵入等安全隐患的自动检测。测。测。

【技术实现步骤摘要】
基于弱监督学习的多粒度多模态3D目标检测方法及系统


[0001]本专利技术涉及图像目标检测
,具体涉及基于弱监督学习的多粒度多模态3D目标检测方法及系统。

技术介绍

[0002]近年来,随着民用航空运输量逐年增加,空中交通也呈现出日益繁忙的发展态势,机场内部高密度的起降飞行任务对跑道安全造成了极大的威胁,因此,对跑道安全事件的有效监控是保障民航安全、提升航班运行效率的重要手段。目前常使用广播式自动相关监视(ADS

B)和多点定位(MLAT)作为监视传感设备,但现有设备应用于跑道安全监控方面仍存在:(1)稳定性不足,主要体现在受电磁干扰影响较大;(2)依赖性较强,机载设备需要安装应答机,且定位依赖于卫星导航系统;(3)精准度不够:航空器体积大且结构不紧凑,现有定位方法以整个目标为单位,无法准确描述局部区域(如机鼻、机尾等)的位置;(4)更新率较低:现有方法更新率约0.5Hz~2Hz,且当目标静止时更新率进一步降低。
[0003]现有技术中,基于视频的跑道安全监控手段几乎不受电磁干扰影响,并且可实现非配合条件下的视频目标分析。现有技术一般使用目标检测方法判断跑道侵入事件,结合标记点定位方法提高检测的精准度,此外,使用目标姿态估计方法可进一步实现对跑道偏离事件的预判。上述模块分别使用基于深度学习的方法训练目标检测和标记点定位模型,同时采用轻量级网络即可实现目标信息的实时(25Hz)更新。
[0004]然而,可见光视频本身对光照、恶劣天气等外部环境较敏感,因此,当遭遇低照度、雾天、雨天等环境变化时,可见光摄像机拍摄的图像可能存在清晰度降低、噪声干扰增大等情况,导致基于单光普视频的跑道监控系统无法正常工作。为解决该问题,本专利技术一方面考虑引入多模态视频数据,弥补可见光视频在恶劣条件下的不足,从而提高系统可用性和鲁棒性;另一方面从方法层面入手,提高现有方法在低照度、环境干扰等条件下目标分析的准确度。现有基于视频的图像分析方法中,通常以任务为单位,对目标检测、标记点定位等任务分别训练深度模型,由于不同任务之间任务粒度存在差异,这种方法不仅忽略了不同任务之间的关联,也无法刻画不同粒度之间的高阶约束,进而限制了外部干扰条件下模型的处理能力。
[0005]此外,现有技术在获取训练数据真值时存在如下问题:(1)引入3D点云数据,但针对本项目场景,深度相机的感知范围有限,而激光雷达可能存在点云相对稀疏等问题;(2)使用目标3D模型构建合成数据集,但很难扩展到非可控室外场景。

技术实现思路

[0006]为解决现有技术方案中的不足,本专利技术提供一种基于弱监督学习的多粒度多模态3D目标检测方法及系统,用于解决基于视频目标分析防跑道侵入系统的可用性和稳定性问题,降低系统对外部环境的依赖性,提高基于视频的跑道安全监控系统全天候处理能力。
[0007]本专利技术的目的是采用下述技术方案实现的:
[0008]一种基于弱监督学习的多粒度多模态3D目标检测方法,所述方法包括:
[0009]输入同一时刻拍摄的可见光视频和热红外视频,将其作为3D目标检测输入;
[0010]对所述3D目标检测输入进行3D目标检测时,基于多粒度的目标3D位置表征方法,将3D目标检测分解成粗粒度3D目标检测任务和细粒度3D关键点定位任务;其中,所述粗粒度3D目标检测任务,用于估计目标的3D检测框位置和检测框置信度信息;所述细粒度3D关键点定位任务,用于基于粗粒度检测结果估计目标局部区域上的3D关键点坐标;
[0011]通过执行粗粒度3D目标检测任务和细粒度3D关键点定位任务,结合预先制定的一致性约束条件,构造所述3D目标检测的弱监督损失,基于弱监督学习求解弱监督损失,获得视频中的目标3D位置和3D关键点坐标。
[0012]优选的,所述多粒度位置表征方法是将目标3D位置表征划分为粗粒度全局目标关键点表征和细粒度局部目标关键点表征;
[0013]其中,所述粗粒度全局目标关键点表征是对整体目标的3D位置进行描述;
[0014]所述细粒度局部目标关键点表征是对目标表面的局部特征点进行描述;
[0015]所述一致性约束条件依据多粒度位置表征方法涉及的粗、细粒度层面目标位置的相互制约关系进行制定;
[0016]其中,所述一致性约束条件包括:3D空间多粒度位置约束和2D投影坐标一致性约束;
[0017]所述2D投影坐标一致性约束还包括:细粒度2D投影坐标一致性约束、粗粒度2D投影坐标一致性约束。
[0018]优选的,所述执行粗粒度3D目标检测任务和细粒度3D关键点定位任务包括:
[0019]构建用于执行粗粒度3D目标检测任务和细粒度3D关键点定位任务的目标检测框架;包括粗粒度3D目标检测框架和细粒度3D目标关键点定位框架;
[0020]将粗粒度3D目标检测框架输出的粗粒度检测结果,输入细粒度3D目标关键点定位框架,输出目标局部区域上的3D关键点坐标。
[0021]进一步地,所述粗粒度3D目标检测框架包括:主干网络与粗粒度预测网络;
[0022]其中,所述主干网络包括Darknet53,以及Darknet53的每个残差块后添加的跨阶段局部网络;
[0023]所述粗粒度预测网络包括特征金字塔和路径聚合网络。
[0024]进一步地,所述执行粗粒度3D目标检测任务包括:
[0025]将成对的RGB

T图像输入主干网络,通过像素级融合得到4通道图像,并提取融合图像的特征;
[0026]将主干网络输出的图像特征输入粗粒度预测网络,输出目标3D检测框偏移和对应的检测框置信度;
[0027]所述置信度取值范围为[0,1],用于表示对应检测框内的目标属于指定图像特征的概率。
[0028]进一步地,所述执行细粒度3D目标关键点定位任务包括:将可见光图像、粗粒度3D检测框和对应的检测框置信度输入预先定义的图像裁剪模块进行图像裁剪操作,生成细粒度3D目标关键点定位的输入数据;其中,所述图像裁剪模块,包括一个基于ResNet50结构的特征提取网络和一个包含多层感知机的细粒度预测网络;
[0029]执行细粒度3D目标关键点定位任务时,将特征提取网络输出的特征向量输入细粒度预测网络,输出目标3D关键点偏移量。
[0030]进一步地,所述生成细粒度3D目标关键点定位的输入数据包括:将目标3D检测框投影到可见光图像上,将围绕所有投影点的最小2D矩形框作为裁剪区域;
[0031]若所述检测框置信度超过预先定义的裁剪阈值,则对对应裁剪区域进行图像裁剪,并将经过剪裁的图像输入细粒度3D目标关键点定位框架中,作为执行细粒度3D目标关键点定位的输入数据。
[0032]优选的,所述基于弱监督学习求解弱监督损失,获得视频中的目标3D位置和3D关键点坐标包括:将粗、细粒度3D目标检测获得的所有输出变量编码成残差形式,利用初始锚框、初始关键点和回归的偏移量推算最终估计值;
[0033]所述3D锚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于弱监督学习的多粒度多模态3D目标检测方法,其特征在于,所述方法包括:采集同一时刻拍摄的可见光视频和热红外视频,将其作为3D目标检测输入;对所述3D目标检测输入进行3D目标检测时,基于多粒度的目标3D位置表征方法,将3D目标检测分解成粗粒度3D目标检测任务和细粒度3D关键点定位任务;其中,所述粗粒度3D目标检测任务,用于估计目标3D检测框位置和检测框置信度信息;所述细粒度3D关键点定位任务,用于基于粗粒度检测结果估计目标局部区域上的3D关键点坐标;通过执行粗粒度3D目标检测任务和细粒度3D关键点定位任务,结合预先制定的一致性约束条件,构造所述3D目标检测的弱监督损失,基于弱监督学习求解弱监督损失,获得视频中的目标3D位置和3D关键点坐标。2.根据权利要求1所述的方法,其特征在于,所述多粒度位置表征方法是将目标3D位置表征划分为粗粒度全局目标关键点表征和细粒度局部目标关键点表征;其中,所述粗粒度全局目标关键点表征是对整体目标的3D位置进行描述;所述细粒度局部目标关键点表征是对目标表面的局部特征点进行描述;所述一致性约束条件依据多粒度位置表征方法涉及的粗、细粒度层面目标位置的相互制约关系进行制定;其中,所述一致性约束条件包括:3D空间多粒度位置约束和2D投影坐标一致性约束;所述2D投影坐标一致性约束还包括:细粒度2D投影坐标一致性约束、粗粒度2D投影坐标一致性约束。3.根据权利要求1所述的方法,其特征在于,所述执行粗粒度3D目标检测任务和细粒度3D关键点定位任务包括:构建用于执行粗粒度3D目标检测任务和细粒度3D关键点定位任务的目标检测框架;包括粗粒度3D目标检测框架和细粒度3D目标关键点定位框架;将粗粒度3D目标检测框架输出的粗粒度检测结果,输入细粒度3D目标关键点定位框架,输出目标局部区域上的3D关键点坐标。4.根据权利要求3所述的方法,其特征在于,所述粗粒度3D目标检测框架包括:主干网络与粗粒度预测网络;其中,所述主干网络包括Darknet53,以及Darknet53的每个残差块后添加的跨阶段局部网络;所述粗粒度预测网络包括特征金字塔和路径聚合网络。5.根据权利要求3所述的方法,其特征在于,所述执行粗粒度3D目标检测任务包括:将成对的RGB

T图像输入主干网络,通过像素级融合得到4通道图像,并提取融合图像的特征;将主干网络输出的图像特征输入粗粒度预测网络,输出目标3D检测框偏移和对应的检测框置信度;所述置信度取值范围为[0,1],用于表示对应检测框内的目标属于指定图像特征的概率。6.根据权利要求5所述的方法,其特征在于,所述执行细粒度3D目标关键点定位任务包括:将可见光图像、粗粒度3D检测框和对应的检测框置信度输入预先定义的图像裁剪模块进行图像裁剪操作,生成细粒度3D目标关键点定位的输入数据;其中,所述图像裁剪模块,
包括一个基于ResNet50结构的特征提取网络和一个包含多层感知机的细粒度预测网络;执行细粒度3D目标关键点定位任务时,将特征提取网络输出的特征向量输入细粒度预测网络,输出目标3D关键点偏移量。7.根据权利要求6所述的方法,其特征在于,所述生成细粒度3D目标关键点定位的输入数据包括:将目标3D检测框投影到可见光图像上,将围绕所有投影点的最小2D矩形框作为裁剪...

【专利技术属性】
技术研发人员:刘云李靓朱志强张朝腾杨振祠葛小武牟唐宏肖乐
申请(专利权)人:中国民用航空总局第二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1