当前位置: 首页 > 专利查询>燕山大学专利>正文

基于CNN和transformer的跨模态人群计数方法技术

技术编号:36118512 阅读:20 留言:0更新日期:2022-12-28 14:23
本发明专利技术公开了基于CNN和transformer的跨模态人群计数方法,本发明专利技术包括以下步骤:将RGB图像和热度图像输入由CNN组成的双分支网络的各分支中,学习双模态图像的模态特定特征;新颖的跨模态transformer连接CNN双分支网络并学习不同模态图像的全局特征,融合模态特定特征和模态全局特征;跨层连接结构连接网络不同层的融合后的特征图,并经分支注意力模块增强融合的特征图的通道信息;跨模态注意力模块提取不同模态间的互补信息,增强跨模态特征表示;将跨模态注意力模块提取的特征图送入尾部网络中,生成密度图;将密度图逐像素相加得到人群计数结果,本发明专利技术可以有效完成人群任意分布的拥挤场景下跨模态人群计数任务。布的拥挤场景下跨模态人群计数任务。布的拥挤场景下跨模态人群计数任务。

【技术实现步骤摘要】
基于CNN和transformer的跨模态人群计数方法


[0001]本专利技术涉及基于CNN和transformer的跨模态人群计数方法,属于计算机 视觉领域。

技术介绍

[0002]人群计数任务是在无约束场景中分析图像,从而估计图像中的行人数量。 人群计数任务广泛应用于现实生活场景中,例如,在紧急疏散大规模人群时, 通过准确估计当前场景的人群密度,安排相应的安保措施,则可以有效减少或 避免踩踏事件的发生;当前COVID

19大流行,人群计数可提供技术支持,使相 关部门更加精准、高效、科学的开展工作。
[0003]传统的人群计数方法有基于检测的方法和基于回归的方法,随着深度学习 的发展,基于密度图估计的深度学习方法大量涌现。大多数早期研究工作是利 用从RGB图像中获得的光学信息生成人群密度图来进行人群计数。但是,由于 外界光照条件的变化和行人姿态信息的干扰,仅利用RGB图像作为人群计数任 务的信息源是不可靠的。随着热像仪和深度相机的快速发展,人们可以在同一 场景中获取多模态信息,这为人群计数任务提供了更多的信息来源。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于CNN和transformer的跨模态人群计数方法,其特征在于,包括如下步骤:(1)将RGB图像和热度图像分别输入由CNN组成的双分支网络结构中的各个分支,分别得到RGB特征图和热度特征图,所述双分支网络结构中的每个分支都包括12个卷积层和3个最大池化层;(2)将步骤(1)中得到的RGB特征图和热度特征图作为输入,通过维度变换将上述特征图转换为序列向量,将序列向量输入新颖的跨模态transformer中,学习不同模态特征图的跨模态全局特征,得到由新颖的跨模态transformer提取的具有跨模态全局特征的RGB序列向量和热度序列向量;RGB特征图和热度特征图的维度均是C
×
H
×
W,其中,C、H、W分别是通道数、高度和宽度;序列向量的形状是K
×
E,其中,K、E分别是序列向量的序列数和一维向量长度;(3)将步骤(2)得到的RGB序列向量和热度序列向量分别重塑为跨模态RGB特征图和跨模态热度特征图,将跨模态RGB特征图与由CNN组成的双分支结构提取的RGB特征图融合,将跨模态热度特征图与由CNN组成的双分支结构提取的热度特征图融合,分别得到融合后的RGB特征图和融合后的热度特征图;(4)将网络不同层融合后的RGB特征图和融合后的热度特征图分别经跨层连接结构连接,得到输出RGB特征图和输出热度特征图;(5)将跨层连接结构的输出RGB特征图和输出热度特征图输入跨模态注意力模块中,融合彼此的特征图,得到新的特征图;(6)将新的特征图输入尾部网络,经一系列计算得到估计的密度图,所述尾部网络包括4个卷积层;(7)将所得密度图逐像素相加,得到估计的人数。2.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(1)中各个分支中的每个卷积层生成的特征图通道数由输入至输出方向依次为16、16、32、32、64、64、64、64、128、128、128、128,所述由CNN组成的双分支网络结构的各个分支中的池化层步长为2。3.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(2)中将特征图转换为序列向量的详细流程为:将高为H,宽为W的特征图分割成4
×
4的图像块,那么C个通道的同一位置的所有图像块按顺序展成一维向量并进行首尾相接,得到完整的一维向量长度为E=C
×4×
4,一共有个相同长度的一维向量,即得到E和K。4.根据权利要求3所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(2)中获取具有跨模态全局特征的RGB序列向量和热度序列向量的具体步骤为:首先,将RGB序列向量、热度序列向量乘以其权重矩阵得到Value

矩阵,将RGB序列向量、热度序列向量进行层标准化,保持了数据特征分布的稳定性,能加速模型收敛效果,将层标准化后的RGB序列向量、热度序列向量与其权重矩阵相乘得到Query矩阵;然后,对层标准化后的RGB序列向量、热度序列向量进行空间金字塔下采样操作,进一步提取序列向量、热度序列向量的语义信息;再将经过空间金字塔下采样的RGB序列向量和热度序列向量进行拼接,从而融合两种
模态的特征,与对应的两种权重矩阵相乘得到Key矩阵和Value矩阵;最后,将Query矩阵与Key矩阵进行矩阵相乘后并进行逻辑回归,得到的结果与Value进行矩阵相乘,再加上Value'矩阵,最终得到具有跨模态全局特征的RGB序列向量和热度序列向量。5.根据权利要求4所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述新颖的跨模态transformer处理过程如下方公式所示:Q=LN(E
RGB
)W
Q
ꢀꢀꢀꢀ
(1),K=Concat(DW(LN(E
RGB
)),DW(LN(E
Thermal
)))W
K
ꢀꢀꢀꢀꢀ
(2),V=Concat(DW(LN(E
RGB
)),DW(LN(E
Thermal
)))W
V
ꢀꢀꢀꢀ
(3),V

=LN(E
RGB
)W
V'
ꢀꢀꢀꢀꢀ
(4),其中,LN(
·
)表示层标准化;Concat(
·
)表示拼接操作;W表示权重矩阵;DW(
·
)表示空间金字塔下采样操作;V'表示原始的序列向量经过残差连接来保留的更多原始模态信息;Q、K、V分别表示transformer的Query矩阵、Key矩阵以及Value矩阵;E
RGB
表示RGB序列向量;MHA(Q,K,V,V')表示新颖的跨模态transformer的多头注意力操作;d
k
表示缩放因子。6.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(3)的详细流程为:将新颖的跨模态transformer提取的具有跨模态全局特征的RGB序列向量,通过上采样操作与RGB特征图的空间维数对齐,再通过卷积核为1
×

【专利技术属性】
技术研发人员:张世辉王威韩雪强
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1