一种基于全局特征感知的目标检测方法及系统技术方案

技术编号：30902956 阅读：27 留言：0更新日期：2021-11-22 23:47

本发明专利技术公开了一种基于全局特征感知的目标检测方法及系统，所述方法包括：实时获取相机采集的RGB图像，对该图像进行切割，获取原始监控图像；将原始监控图像输入训练好的全局感知特征提取器，输出检测结果；所述全局感知特征提取器包括：图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络。本发明专利技术的方法可以提升检测精度并有效增强目标检测的泛化性能。效增强目标检测的泛化性能。效增强目标检测的泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于全局特征感知的目标检测方法及系统

[0001]本专利技术涉及自动驾驶领域，具体涉及一种基于全局特征感知的目标检测方法及系统。

技术介绍

[0002]在交通拥堵的大城市，车主出行过程中往往需要花费大量时间来寻找可用停车位，在自动驾驶时代，实现代客泊车的前提也在于实时获取停车位的状态信息，从而进一步实现路径规划。基于计算机视觉的方法可以实现对停车场的车位进行检测，相比于基于地磁传感器的方法，优势在于成本低，几个摄像头就可以覆盖整个停车场，并且可以在现有的监控摄像头上进行升级，摄像头将拍摄到的画面进行处理后直接将车位信息反馈给车辆，进一步降低了成本。
[0003]国内外对于利用视觉检测停车位的方法已经有了一定研究，通常分为三种：
[0004](1)对停车场图像做车辆检测，通过计算图像中车辆二维框与车位框的交并比来判断车位状况；
[0005](2)对停车场车辆图像做语义分割，同样通过计算非背景点与车位的交并比来判断车位内有车无车。
[0006]这两种方法性能依赖于网络的检测或分割的准确度，对车...

【技术保护点】

【技术特征摘要】
1.一种基于全局特征感知的目标检测方法，所述方法包括：实时获取相机采集的RGB图像，对该图像进行切割，获取原始监控图像；将原始监控图像输入训练好的全局感知特征提取器，输出检测结果；所述全局感知特征提取器包括：图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络；所述图像切分模块，用于对待检测的图像进行切分，形成若干个固定大小的图像块，并将位置嵌入添加到图像块中，输出线性嵌入序列；所述Transformer编码器，用于利用自注意力机制对线性嵌入序列进行处理，提取整张图像的特征图；所述上采样和通道压缩模块，用于扩大整张图像的特征图的分辨率，并进行通道压缩；所述特征重标定模块，用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接，利用注意力机制对拼接特征的通道进行权重分配，再将加权后的特征图送入分类网络中；所述分类网络：用于对加权后的特征图进行目标检测，输出检测结果。2.根据权利要求1所述的基于全局特征感知的目标检测方法，其特征在于，所述图像切分模块的具体实现过程为：将原始监控图像切分为图像块p
i
，(H,W)表示原始监控图像的分辨率，C为图像的通道数，其中S2表示图像块大小，N表示图像块的数量并且将图像块p
i
铺展成一维向量后使用全连接层FC(
·
)对该图像块进行“词嵌入”操作，“词嵌入”向量Emb(i)为：Emb(i)＝FC(Flatten(p
i
))+Lp
i
其中，Flatten(p
i
)为将图像块p
i
铺展成一维向量；Lp
i
为一个可学习的变量，以表征图像块的位置编码信息；将线性嵌入序列[Emb(0)，Emb(1)，
…
,Emb(N)]输出至Transfomer编码器。3.根据权利要求2所述的基于全局特征感知的目标检测方法，其特征在于，所述Transfomer编码器由L个块堆叠而成，每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元；对于第l个块，其输入向量为y
l
‑1，其中，第一个块的输入向量为y0＝[Emb(0)，Emb(1)，
…
，Emb(N)]；上一个块的输出为下一个块的输入；第一层归一化单元对输入向量y
l
‑1进行层归一化处理得到向量X＝LN(y
l
‑1)；多头自注意力模块包括M个单头，第m个单头的自注意机制的输出SA
m
为：其中，和均代表线性转换矩阵，代表第m个单头的矩阵的维度；将M个单头的自注意机制的输出拼接起来，通过乘一个线性变换矩阵W
O
得到多头自注意力模块的输出MHA(X)：
MHA(X)＝Concat[SA1,
…
,SA
M
]W
o
第一加法单元，用于将多头自注意力模块的输出与输入向量进行相加，结果为y
′
l
：y<...

【专利技术属性】
技术研发人员：张新钰，王力，李骏，曾维佳，刘伟，杨磊，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人