【技术实现步骤摘要】
一种基于全局特征感知的目标检测方法及系统
[0001]本专利技术涉及自动驾驶领域,具体涉及一种基于全局特征感知的目标检测方法及系统。
技术介绍
[0002]在交通拥堵的大城市,车主出行过程中往往需要花费大量时间来寻找可用停车位,在自动驾驶时代,实现代客泊车的前提也在于实时获取停车位的状态信息,从而进一步实现路径规划。基于计算机视觉的方法可以实现对停车场的车位进行检测,相比于基于地磁传感器的方法,优势在于成本低,几个摄像头就可以覆盖整个停车场,并且可以在现有的监控摄像头上进行升级,摄像头将拍摄到的画面进行处理后直接将车位信息反馈给车辆,进一步降低了成本。
[0003]国内外对于利用视觉检测停车位的方法已经有了一定研究,通常分为三种:
[0004](1)对停车场图像做车辆检测,通过计算图像中车辆二维框与车位框的交并比来判断车位状况;
[0005](2)对停车场车辆图像做语义分割,同样通过计算非背景点与车位的交并比来判断车位内有车无车。
[0006]这两种方法性能依赖于网络的检测或分割的准确度,对车位位置的检测存在一定误差。
[0007](3)对摄像机拍摄到的停车场图像进行先验模板的标注,在系统运行时,根据先验模板对图像进行切割,每个切割图像只包含一个停车位,通过对分割后的停车位图像进行二分类(占用或者空闲)以完成对车位状况的检测。这种方案让网络只需要关注分割后的图像,避免了网络被停车位以外的图像分散注意力,相比前两种方案,这种方案降低了网络任务难度,从而拥有更高的精度。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于全局特征感知的目标检测方法,所述方法包括:实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。2.根据权利要求1所述的基于全局特征感知的目标检测方法,其特征在于,所述图像切分模块的具体实现过程为:将原始监控图像切分为图像块p
i
,(H,W)表示原始监控图像的分辨率,C为图像的通道数,其中S2表示图像块大小,N表示图像块的数量并且将图像块p
i
铺展成一维向量后使用全连接层FC(
·
)对该图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)为:Emb(i)=FC(Flatten(p
i
))+Lp
i
其中,Flatten(p
i
)为将图像块p
i
铺展成一维向量;Lp
i
为一个可学习的变量,以表征图像块的位置编码信息;将线性嵌入序列[Emb(0),Emb(1),
…
,Emb(N)]输出至Transfomer编码器。3.根据权利要求2所述的基于全局特征感知的目标检测方法,其特征在于,所述Transfomer编码器由L个块堆叠而成,每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元;对于第l个块,其输入向量为y
l
‑1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),
…
,Emb(N)];上一个块的输出为下一个块的输入;第一层归一化单元对输入向量y
l
‑1进行层归一化处理得到向量X=LN(y
l
‑1);多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SA
m
为:其中,和均代表线性转换矩阵,代表第m个单头的矩阵的维度;将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵W
O
得到多头自注意力模块的输出MHA(X):
MHA(X)=Concat[SA1,
…
,SA
M
]W
o
第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y
′
l
:y<...
【专利技术属性】
技术研发人员:张新钰,王力,李骏,曾维佳,刘伟,杨磊,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。