当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于全局特征感知的目标检测方法及系统技术方案

技术编号:30902956 阅读:20 留言:0更新日期:2021-11-22 23:47
本发明专利技术公开了一种基于全局特征感知的目标检测方法及系统,所述方法包括:实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络。本发明专利技术的方法可以提升检测精度并有效增强目标检测的泛化性能。效增强目标检测的泛化性能。效增强目标检测的泛化性能。

【技术实现步骤摘要】
一种基于全局特征感知的目标检测方法及系统


[0001]本专利技术涉及自动驾驶领域,具体涉及一种基于全局特征感知的目标检测方法及系统。

技术介绍

[0002]在交通拥堵的大城市,车主出行过程中往往需要花费大量时间来寻找可用停车位,在自动驾驶时代,实现代客泊车的前提也在于实时获取停车位的状态信息,从而进一步实现路径规划。基于计算机视觉的方法可以实现对停车场的车位进行检测,相比于基于地磁传感器的方法,优势在于成本低,几个摄像头就可以覆盖整个停车场,并且可以在现有的监控摄像头上进行升级,摄像头将拍摄到的画面进行处理后直接将车位信息反馈给车辆,进一步降低了成本。
[0003]国内外对于利用视觉检测停车位的方法已经有了一定研究,通常分为三种:
[0004](1)对停车场图像做车辆检测,通过计算图像中车辆二维框与车位框的交并比来判断车位状况;
[0005](2)对停车场车辆图像做语义分割,同样通过计算非背景点与车位的交并比来判断车位内有车无车。
[0006]这两种方法性能依赖于网络的检测或分割的准确度,对车位位置的检测存在一定误差。
[0007](3)对摄像机拍摄到的停车场图像进行先验模板的标注,在系统运行时,根据先验模板对图像进行切割,每个切割图像只包含一个停车位,通过对分割后的停车位图像进行二分类(占用或者空闲)以完成对车位状况的检测。这种方案让网络只需要关注分割后的图像,避免了网络被停车位以外的图像分散注意力,相比前两种方案,这种方案降低了网络任务难度,从而拥有更高的精度。
[0008]目前来看,基于先验模板的停车场检测方法有两个共同特点:1)使用浅层网络避免过拟合;2)使用空洞卷积或者加大池化层步数以提高网络的感受野。然而浅层的网络降低了模型的学习能力,让模型只能学习到浅层特征,容易在停车位图像或车辆颜色较为复杂的情况下产生误检,并且较大的池化层步数会带来大量的信息损失,这进一步降低了模型的检测性能。

技术实现思路

[0009]针对上述问题,本专利技术提出了一种基于全局特征感知的目标检测方法,该方法基于设计的全局感知特征提取器GPFE(Global Perception Feature Extractor),可以有效提升网络对高维特征的学习能力,以及对图像全局特征(如光照、亮度等)的感知能力。在现有网络中添加该模块并在公开数据集上进行实验可以验证该方法的有效性。
[0010]为实现上述目的,本专利技术的实施例1提供了一种基于全局特征感知的目标检测方法,所述方法包括:
[0011]实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;
[0012]将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;
[0013]所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;
[0014]所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;
[0015]所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;
[0016]所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;
[0017]所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;
[0018]所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。
[0019]进一步的,所述图像切分模块的具体实现过程为:
[0020]将原始监控图像切分为图像块p
i
,(H,W)表示原始监控图像的分辨率,C为图像的通道数,其中S2表示图像块大小,N表示图像块的数量并且将图像块p
i
铺展成一维向量后使用全连接层FC(
·
)对该图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)为:
[0021]Emb(i)=FC(Flatten(p
i
))+Lp
i
[0022]其中,Flatten(p
i
)为将图像块p
i
铺展成一维向量;Lp
i
为一个可学习的变量,以表征图像块的位置编码信息;
[0023]将线性嵌入序列[Emb(0),Emb(1),

,Emb(N)]输出至Transfomer编码器。
[0024]进一步的,所述Transfomer编码器由L个块堆叠而成,每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元;
[0025]对于第l个块,其输入向量为y
l
‑1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),

,Emb(N)];上一个块的输出为下一个块的输入;
[0026]第一层归一化单元对输入向量y
l
‑1进行层归一化处理得到向量X=LN(y
l
‑1);
[0027]多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SA
m
为:
[0028][0029]其中,和均代表线性转换矩阵,代表第m个单头的矩阵的维度;
[0030]将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵W
O
得到多头自注意力模块的输出MHA(X):
[0031]MHA(X)=Concat[SA1,

,SA
M
]W
o
[0032]第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y

l

[0033]y

l
=MHA(X)+y
l
‑1[0034]第二层归一化单元,用于对y

l
进行层归一化处理得到向量LN(y

l
);
[0035]多层感知机,用于对向量LN(y

l
)进行处理,输出处理结果:MLP(LN(y

l
))
[0036]第二加法单元,用于将多层感知机的输出与y

l
进行相加:
[0037]y
l
=MLP(LN(y

l
))+y

l
[0038]则第l个块的输出为y
l
,第L个块的输出y
L
为Transfomer编码器的输出。
[0039]进一步的,所述上采样和通道压缩模块包括多个堆叠的块,每个块均包含一个线性插值单元以及两个卷积层;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局特征感知的目标检测方法,所述方法包括:实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。2.根据权利要求1所述的基于全局特征感知的目标检测方法,其特征在于,所述图像切分模块的具体实现过程为:将原始监控图像切分为图像块p
i
,(H,W)表示原始监控图像的分辨率,C为图像的通道数,其中S2表示图像块大小,N表示图像块的数量并且将图像块p
i
铺展成一维向量后使用全连接层FC(
·
)对该图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)为:Emb(i)=FC(Flatten(p
i
))+Lp
i
其中,Flatten(p
i
)为将图像块p
i
铺展成一维向量;Lp
i
为一个可学习的变量,以表征图像块的位置编码信息;将线性嵌入序列[Emb(0),Emb(1),

,Emb(N)]输出至Transfomer编码器。3.根据权利要求2所述的基于全局特征感知的目标检测方法,其特征在于,所述Transfomer编码器由L个块堆叠而成,每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元;对于第l个块,其输入向量为y
l
‑1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),

,Emb(N)];上一个块的输出为下一个块的输入;第一层归一化单元对输入向量y
l
‑1进行层归一化处理得到向量X=LN(y
l
‑1);多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SA
m
为:其中,和均代表线性转换矩阵,代表第m个单头的矩阵的维度;将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵W
O
得到多头自注意力模块的输出MHA(X):
MHA(X)=Concat[SA1,

,SA
M
]W
o
第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y

l
:y<...

【专利技术属性】
技术研发人员:张新钰王力李骏曾维佳刘伟杨磊
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1