当前位置: 首页 > 专利查询>东南大学专利>正文

面向开放世界目标检测的障碍识别与避障方法及小车系统技术方案

技术编号:39870985 阅读:9 留言:0更新日期:2023-12-30 12:58
本发明专利技术公开了一种面向开放世界目标检测的障碍识别与避障方法及小车系统,首先预训练具有开放世界目标检测能力的目标检测器,利用预训练的

【技术实现步骤摘要】
面向开放世界目标检测的障碍识别与避障方法及小车系统


[0001]本专利技术属于人工智能自动驾驶与目标检测
,主要涉及了一种面向开放世界目标检测的障碍识别与避障方法及小车系统


技术介绍

[0002]人类通常能够正确识别其环境中未知物体,但计算机在处理未知实例时难以下手

在实际的驾驶场景中,未知实例的出现虽是偶然,但会对自动驾驶的安全造成不可忽视的影响

基于这类问题,
2021

K.J.Joseph
等人提出了开放世界目标检测的概念,形式化定义为
:

t
时刻,已知的目标类别为时刻,已知的目标类别为其中
N
+
为所有正整数,未知的类别为类别为的训练集为其中,
X

{I1,

,I
M
}

Y

{Y1,

,Y
M
}
分别为图片和标注信息,其中每张图片
Y
i

{y1,y2,

,y
K
}
包含了多个目标实例,每个实例都有其标签和位置

开放世界目标检测在该条件下学得模型
M
C+n

开放世界目标检测要求模型具有开集检测的能力,即能够识别训练集中未出现的类或出现次数较少的物体种类,传统的模型不具有此项功能或实现效果较差

[0003]此外,自动驾驶中的视觉检测模块的交互与实际应用问题也关系着自动驾驶的安全问题

具体而言,需要解决如何基于视觉目标检测,辅以其他技术如控制技术

传感及技术,将目标检测得到的信息与车辆实际避障进行结合


技术实现思路

[0004]本专利技术正是针对现有技术自动驾驶中的视觉检测模块开放世界目标检测能力不足以及视觉检测模块的交互与实际应用的问题,提供一种面向开放世界目标检测的障碍识别与避障方法及小车系统,首先预训练具有开放世界目标检测能力的目标检测器,再利用预训练的
Omnidata
模型提取
RGB
图像中物体的几何特征,每一张
RGB
图像分别生成一张基于深度信息的图像和基于法线信息的图像;利用已知类的
Bounding Box
作为监督信号,指导深度图像和法线图像,生成类别无关的伪框;再对所有伪框,使用开放词汇目标检测模型
Detic
,通过提供检测词汇表完成对已知类别和未知新类别的分类,完成具有开放世界目标检测能力的目标检测器的训练;完成行径设备运行路径
Route
的预设后,利用测距模块得到障碍物位置标签
Obstacle
i
,利用视觉检测模块得到
Bbox
i
,根据物体标签
class
i
的类别执行不同操作,完成障碍识别及执行避障,具有较好的可应用性和拓展性,更加符合实际需求

[0005]为了实现上述目的,本专利技术采取的技术方案是:面向开放世界目标检测的障碍识别与避障方法,包括如下步骤:
[0006]S1
:利用
CODA、SODA10M
自动驾驶数据集的
RGB
图像,预训练具有开放世界目标检测能力的目标检测器,所述目标检测器生成已知类的
Bounding Box

[0007]S2
:利用预训练的
Omnidata
模型提取
RGB
图像中物体的几何特征,所述几何特征包括深度和法线,每一张
RGB
图像分别生成一张基于深度信息的图像和基于法线信息的图像;
[0008]S3
:利用步骤
S1
生成的已知类的
Bounding Box
作为监督信号,指导步骤
S2
中得到
的深度图像和法线图像,生成类别无关的伪框;
[0009]S4
:对于步骤
S3
生成的所有伪框,使用开放词汇目标检测模型
Detic
,通过提供检测词汇表完成对已知类别和未知新类别的分类,完成具有开放世界目标检测能力的目标检测器的训练;
[0010]S5
:行径设备运行准备,完成行径设备运行路径
Route
的预设;
[0011]S6
:利用测距模块得到障碍物位置标签
Obstacle
i
,利用视觉检测模块得到
Bbox
i
,根据物体标签
class
i
的类别执行不同操作,所述标签类别包括已知类别
C
c
与非已知类别
C
U
,若物体标签
class
i
∈C
c
,则执行避障操作;若
class
i
∈C
U
,则记录下障碍物并手动识别标注类别后,执行避障操作;
[0012]S7
:根据行径设备运行一轮的运行结果,扩充已知类别
C
c
,重复执行步骤
S1

S4
重新训练,并在步骤
S5
中调整路径
Route。
[0013]作为本专利技术的一种改进,所述步骤
S3
中的损失函数为:
[0014][0015]其中,
K
是预先定义的已知类别列表,
B
k
是已知类的
anchor
候选集合,
N
reg
是集合
B
k
的大小,
L
reg
是回归损失,
L
obj
是物体得分预测损失,
t
i

t
i*
分别是预测的
Bounding box
的位置坐标及其相应的真实坐标值,
o
i

o
i*
分别是预测物体类别的得分和
anchor i
的真实标签

[0016]作为本专利技术的一种改进,所述步骤
S4

Detic
模型使用的损失函数为:
[0017][0018]L
max

size

BCE(Wf
j

c)

j

argmax
j
(size(b
j
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
面向开放世界目标检测的障碍识别与避障方法,其特征在于,包括如下步骤:
S1
:利用
CODA、SODA10M
自动驾驶数据集的
RGB
图像,预训练具有开放世界目标检测能力的目标检测器,所述目标检测器生成已知类的
Bounding Box

S2
:利用预训练的
Omnidata
模型提取
RGB
图像中物体的几何特征,所述几何特征包括深度和法线,每一张
RGB
图像分别生成一张基于深度信息的图像和基于法线信息的图像;
S3
:利用步骤
S1
生成的已知类的
Bounding Box
作为监督信号,指导步骤
S2
中得到的深度图像和法线图像,生成类别无关的伪框;
S4
:对于步骤
S3
生成的所有伪框,使用开放词汇目标检测模型
Detic
,通过提供检测词汇表完成对已知类别和未知新类别的分类,完成具有开放世界目标检测能力的目标检测器的训练;
S5
:行径设备运行准备,完成行径设备运行路径
Route
的预设;
S6
:利用测距模块得到障碍物位置标签
Obstacle
i
,利用视觉检测模块得到
Bbox
i
,根据物体标签
class
i
的类别执行不同操作,所述标签类别包括已知类别
C
c
与非已知类别
C
U
,若物体标签
class
i
∈C
c
,则执行避障操作;若
class
i
∈C
U
,则记录下障碍物并手动识别标注类别后,执行避障操作;
S7
:根据行径设备运行一轮的运行结果,扩充已知类别
C
c
,重复执行步骤
S1

S4
重新训练,并在步骤
S5
中调整路径
Route。2.
如权利要求1所述的面向开放世界目标检测的障碍识别与避障方法,其特征在于:所述步骤
S3
中的损失函数为:其中,
K
是预先定义的已知类别列表,
B
k
是已知类的
anchor
候选集合,
N
reg
是集合
B
k
的大小,
L
reg
是回归损失,
L
obj
是物体得分预测损失,
t
i

t
i*
分别是预测的
Bounding box
的位置坐标及其相应的真实坐标值,
o
i

o
i*
分别是预测物体类别的得分和
anchor i
的真实标签
。3.
如权利要求1或2所述的面向开放世界目标检测的障碍识别与避障方法,其特征在于:所述步骤
S4

Detic
模型使用的损失函数为:
L
max

size

BCE(Wf
j

c)

j

argmax
j
(size(b
j
))
其中,
L
rpn

RPN
网络的损失,
L
reg
是回归损失,
L
cls
是分类损失,
I
是一张图片,
D
det
是用于目标检测任务的数据集,
D
cls
是用于图像分类任务的数据集,
λ
为权重,
L
max

size
表示使用
RPN
网络的替代算法
m...

【专利技术属性】
技术研发人员:肖力行史瑞潇周毅
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1