当前位置: 首页 > 专利查询>四川大学专利>正文

联合高分辨率CNN和轻量级Transformer的密集人群计数方法技术

技术编号:39187862 阅读:11 留言:0更新日期:2023-10-27 08:35
本发明专利技术提供联合高分辨率CNN和轻量级Transformer的密集人群计数方法,包括以下步骤:利用固定高斯核法计算人群图像中人头的尺度大小,生成用于网络训练的监督密度图;构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络;对人群数据集进行数据增广,利用训练集对构建的计数网络进行多密度图训练,筛选保存最优模型;利用测试集对得到的最优网络模型进行测试,并通过对网络预测的密度图像素值进行累加求和,得到图片人群最终的计数结果。本发明专利技术不仅能够保持人群特征高分辨率输出,而且可以融合多尺度信息,提升了人群计数的鲁棒性;显著提升了模型的收敛速度和泛化性能。速度和泛化性能。速度和泛化性能。

【技术实现步骤摘要】
联合高分辨率CNN和轻量级Transformer的密集人群计数方法


[0001]本专利技术涉及人群计数
,具体涉及一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法。

技术介绍

[0002]人群计数旨在通过计算机视觉技术获取图像中人群数量。这项技术具有重要的学术研究价值和应用价值,在公共安防、智能监控和疫情防控等领域被广泛应用。还可以扩展细胞镜检测、车辆计数等相关领域。目前,很多基于深度学习的人群计数方法被不断提出。特别是基于深度神经网络的密度估计法。这种方法利用经过精心构建的网络模型对密度图进行回归,然后通过对预测密度图积分求和来得到总人数。
[0003](一)分析关于人群计数的专利技术
[0004]申请号为201911161705.0的中国专利技术专利申请《人群密度估计方法》根据预设阈值使用AlexNet网络将人群图片数据集分为密集与稀疏两类,然后针对这两类图像密度特征的不同将其分别送入对应的特征提取网络,从而获取更好有效的人群密度估计特征。但该方法需分别训练AlexNet分类网络、密集数据特征提取网络和稀疏数据特征提取网络,导致计算过程繁琐复杂,且图片数据的分类选择错误将会严重影响计数准确度。
[0005]申请号为202010170236.5的中国专利技术专利申请《基于级联高分辨卷积神经网络的密集人群计数算法》利用级联式高分辨卷积神经网络CHRNet提取密集人群图像高分辨率特征,并采用分区域损失加权的方式,通过使用MSE和计数误差两种损失函数进行网络参数优化。其不足之处在于该算法人为设定不同区域及两种不同损失之间的权重,而密度图的优化质量对权重的设置较为敏感,计数结果会因权重设置不当造成较大的偏差。
[0006]申请号为202211557637.1的中国专利技术专利申请《一种基于多尺度融合卷积网络的人群计数方法及系统》,提出在VGG16初级特征提取网络后使用多尺度融合卷积网络的来有效提取多尺度信息。但该方法的主干网络采用单列结构,难以实现多层次特征的提取和融合,且多尺度融合卷积网络的融合方式较为简单,不利于对高复杂度的图像场景进行有效的建模。
[0007](二)分析基于深度神经网络的人群计数研究
[0008]Li等人提出了一种名为CSRNet的基于VGG

16架构的计数网络(《Proceedingsofthe IEEE Conference on ComputerVision and Pattern Recognition》会议纪要,2018年第1091

1100页)。该网络通过在后端网络中增加空洞卷积层来拓展感知范围和特征提取能力。然而,CSRNet网络中存在大量池化操作、步长大于1的卷积层,生成的密度图大小仅为原始输入大小的1/8,可能无法包含足够多的小尺度目标特征信息,导致其在一些复杂场景下的性能受到限制。对于密集人群或小尺度目标,低分辨率特征不利于精确预测。
[0009]Gao等人在提出的计数网络SCAR中引入了空间和通道注意力机制(《Neurocomputing》期刊,2019年第363卷第1

8页)。空间注意力机制用于编码整张图像的
像素级上下文信息,以提高模型在像素级上预测密度图的精度;通道注意力机制则用于提取不同的特征信息,使模型对噪声背景更加稳健。该模型中使用的这两种注意力机制可以更好地关注局部细节,但难以捕获全局特征来进行全局上下文建模,从而影响模型对于整个场景的理解。
[0010]Liang等人提出了基于Vision Transformer(ViT)的人群计数网络TransCrowd(《Science China
[0011]Information Sciences》期刊,2022年第6期第104

120页),成功地将Transformer引入到人群计数领域。该模型采用ViT作为主干网络来进行全局上下文建模,并于弱监督的形式取得较为理想的计数结果。然而,基于纯ViT的计数模型往往计算成本较高,导致模型难以训练和优化,更不利于模型在移动端的部署应用。

技术实现思路

[0012]本专利技术旨在克服前述的现有技术中存在的多尺度特征融合不够紧密、特征分辨率较低、网络难以训练等难题,提供一种能保持人群特征高分辨率并提升人群预测精度的方法。
[0013]本专利技术采用改进的高分辨率特征提取网络HRNet作为前端网络,将其特征图输出大小维持在原始输入大小的1/4,产生丰富的高分辨率表示,有助于保持感受野信息的丰富性,进一步提高提高预测密度图的准确度;采用轻量的ViT Encoder来建模复杂的全局上下文,并使用多尺度特征增强加来加强特征提取,有效缓解多尺度变化、透视效应等因素对计数结果的影响。
[0014]为了达到上述目的,本专利技术提供一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法,包括以下步骤:
[0015]步骤S1:利用固定高斯核法计算人群图像中人头的尺度大小,生成用于网络训练的监督密度图;
[0016]步骤S2:构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络;
[0017]步骤S3:对人群数据集进行数据增广,利用训练集对步骤S2中构建的计数网络进行多密度图训练,筛选保存最优模型;
[0018]步骤S4:利用测试集对步骤S3得到的最优网络模型进行测试,并通过对网络预测的密度图像素值进行累加求和,得到图片人群最终的计数结果。
[0019]进一步地,步骤S2的具体过程如下:
[0020]步骤S2

1:利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1

4提取输入图像的初级特征,得到四个分辨率不同、通道数不同的初级特征图。进一步利用核大小为1
×
1的卷积层分别对分辨率最高的三个初级特征图作特征提取,得到三个不同分辨率大小的初级密度图density map1、density map2和density map3,这三个初级密度图的通道数为1,垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16;
[0021]步骤S2

2:构建多注意力模块,基于四个不同分辨率的初级特征图,分别执行多种注意力操作,并按通道连接方式融合形成新的注意力特征图;
[0022]步骤S2

3:构建并行的多尺度增强模块和ViT Encoder特征提取模块,利用并行连
接的ViT编码器和多尺度增强模块对融合后的注意力特征图进行全局上下文建模及多尺度特征增强;
[0023]步骤S2

4:构建解码器模块,将特征增强及全局上下文建模后的特征图送入解码器模块进行解码,以将特征图尺寸恢复到原始输入大小,预测得到最终的预测密度图density map4。
[0024]进一步地,步骤S2

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,包括以下步骤:步骤S1:利用固定高斯核法计算人群图像中人头的尺度大小,生成用于网络训练的监督密度图;步骤S2:构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络;步骤S3:对人群数据集进行数据增广,利用训练集对步骤S2中构建的计数网络进行多密度图训练,筛选保存最优模型;步骤S4:利用测试集对步骤S3得到的最优网络模型进行测试,并通过对网络预测的密度图像素值进行累加求和,得到图片人群最终的计数结果。2.根据权利要求1所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,步骤S2的具体过程如下:步骤S2

1:利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1

4提取输入图像的初级特征,得到四个分辨率不同、通道数不同的初级特征图;利用核大小为1
×
1的卷积层分别对分辨率最高的三个初级特征图作特征提取,得到三个不同分辨率大小的初级密度图densitymap1、densitymap2和densitymap3,这三个初级密度图的通道数为1,垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16;步骤S2

2:构建多注意力模块,基于四个不同分辨率的初级特征图,分别执行多种注意力操作,并按通道连接方式融合形成新的注意力特征图;步骤S2

3:构建并行的多尺度增强模块和ViTEncoder特征提取模块,利用并行连接的ViT编码器和多尺度增强模块对融合后的注意力特征图进行全局上下文建模及多尺度特征增强;步骤S2

4:构建解码器模块,将特征增强及全局上下文建模后的特征图送入解码器模块进行解码,以将特征图尺寸恢复到原始输入大小,预测得到最终的预测密度图densitymap4。3.根据权利要求2所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,步骤S2

2的具体过程如下:步骤S2
‑2‑
1:将四个初级特征图送入自注意力和通道注意力子模块,每一个初级特征图分别产生自注意力特征子图和通道注意力特征子图;步骤S2
‑2‑
2:使用一个动态权重生成机制为这两种注...

【专利技术属性】
技术研发人员:周欣王明涛陈媛媛
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1