一种跨模态上下文感知网络的RGBT人群计数方法技术

技术编号：41186757 阅读：2 留言：0更新日期：2024-05-07 22:18

本发明专利技术涉及计算机视觉技术领域，公开了一种跨模态上下文感知网络的RGBT人群计数方法，包括：S1、读取数据集并对数据集进行数据预处理；S2、构建跨模态上下文感知神经网络；S3、训练跨模态上下文感知神经网络，并测试；S4、获取人群图像，输入到训练好的跨模态上下文感知神经网络中进行预测，得到该图像的预测人数。本发明专利技术提供的跨模态上下文感知网络的RGBT人群计数方法，将传统RGB图像与热成像图像(T图像)有效地结合，增强不同场景下人群的特征表达。同时，结合两种模态的特征输入，增强网络对人群信息特征的专注提取，能够能有效地提升人物识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，特别涉及一种跨模态上下文感知网络的rgbt人群计数方法。

技术介绍

1、随着国家城市化程度的加深，城市经济发展的深层化，城市中密集人群场景逐渐增多。与此同时，在这种情况下，伴随而来的还有安全隐患。在新冠疫情等类似传染病传播的背景下，对于易拥挤区域，传染性病毒会更容易因人群过于密集而更加迅速传播，进而时刻影响着人民生命安全。因此通过设计一种密集人群计数方法，预测人群数量，对高度拥挤的场景进行预警，可以帮助相关人员进行突发事件事前预警和事后决策，避免严重踩踏事件，保障人们的生命和财产安全。

2、随着计算机视觉和目标检测技术在人工智能领域的快速发展，目前已有的人群计数主要分为两种：1)基于传统方法的方法，例如支持向量机、决策树、随机森林等；2)基于深度学习的方法，如can、cmsnet等神经网络方法。以上人群计数方法均存在一定的局限性。传统方法存在着复杂度高，精度差，使用场景易被限制的缺点。基于深度学习的方法存在着设计的网络结构不同，处理问题角度不同而导致的精度较低、预测场景单一等问题。

技术实现思路

1、为解决上述问题，本专利技术提供了一种跨模态上下文感知网络的rgbt人群计数方法，将传统rgb图像与热成像图像(t图像)有效地结合，增强不同场景下人群的特征表达。同时，结合两种模态的特征输入，增强网络对人群信息特征的专注提取，能够能有效地提升人物识别的准确率。

2、本专利技术提供了一种跨模态上下文感知网络的rgbt人群计数方法，包括：p>

3、s1、读取数据集并对数据集进行数据预处理；

4、s2、构建跨模态上下文感知神经网络；

5、s3、训练跨模态上下文感知神经网络，并测试；

6、s4、获取人群图像，输入到训练好的跨模态上下文感知神经网络中进行预测，得到该图像的预测人数。

7、进一步地，所述步骤s1具体包括：

8、s11、下载公开数据集；

9、s12、将所述公开数据集分为训练集和测试集；

10、s13、按照所述公开数据集中标注的信息标注点的位置生成定位图像；

11、s14、利用高斯核大小为25的高斯函数将定位图像处理为密度图。

12、进一步地，所述步骤s2具体包括：

13、s201、将输入的3通道rgb图像和1通道t图像分别输入跨模态上下文感知网络的多尺度感知模块，生成对应的第一rgb多尺度感知特征图和第一t多尺度感知特征图；其中，t图像为热成像图像；

14、s202、将上层输出的第一rgb多尺度感知特征图和第一t多尺度感知特征图一起输入模态交互模块，得到第一rgb模态交互特征图和第一t模态交互特征图；

15、s203、将上层输出的第一rgb模态交互特征图和第一t模态交互特征图分别输入maxpooling层进行下采样，缩小特征图到第一设定大小，得到第一rgb缩小特征图和第一t缩小特征图；

16、s204、将上层的第一rgb缩小特征图和第一t缩小特征图分别输入conv2d进行卷积操作，将原3通道和1通道的rgb和t特征图扩展到64通道，得到第一rgb扩展维度特征图和第一t扩展维度特征图；

17、s205、将输出的第一rgb扩展维度特征图和第一t扩展维度特征图输入多尺度感知模块，分别生成对应的第二rgb多尺度感知特征图和第二t多尺度感知特征图；

18、s206、将上层输出的第二rgb多尺度感知特征图和第二t多尺度感知特征图一起输入模态交互模块，得到第二rgb模态交互特征图和第二t模态交互特征图；

19、s207、将上层输出的第二rgb模态交互特征图和第二t模态交互特征图分别输入maxpooling层进行下采样，缩小特征图到第二设定大小，得到第二rgb缩小特征图和第二t缩小特征图；

20、s208、将上层的第二rgb缩小特征图和第二t缩小特征图分别输入conv2d进行卷积操作，将原64通道的rgb和t特征图扩展到256通道，得到第二rgb扩展维度特征图和第二t扩展维度特征图；

21、s209、将上层输出的第二rgb扩展维度特征图和第二t扩展维度特征图输入多尺度感知模块，分别生成对应的第三rgb多尺度感知特征图和第三t多尺度感知特征图；

22、s210、将上层输出的第三rgb多尺度感知特征图和第三t多尺度感知特征图一起输入进模态交互模块，得到第三rgb模态交互特征图和第三t模态交互特征图；

23、s211、将上层输出的第三rgb模态交互特征图和第三t模态交互特征图分别输入upsample层进行上采样，扩展特征图到第三设定大小，得到第一rgb上采样特征图和第一t上采样特征图；

24、s212、将上层的第一rgb上采样特征图和第一t上采样特征图分别输入conv2d卷积操作，将原256通道的rgb和t特征图缩小到64通道，得到第一rgb缩小维度特征图和第一t缩小维度特征图；

25、s213、将输入第一rgb缩小维度特征图和第一t缩小维度特征图输入多尺度感知模块，分别生成对应的第四rgb多尺度感知特征图和第四t多尺度感知特征图；

26、s214、将上层输出的第四rgb多尺度感知特征图和第四t多尺度感知特征图一起输入模态混合模块，得到第一综合模态混合特征图；

27、s215、将上层输出的第一综合模态混合特征图输入upsample层进行上采样，扩展特征图到第四设定大小，得到第二综合模态混合特征图；

28、s216、将上层输出的第二综合模态混合特征图输入conv2d进行卷积操作，将原128通道的特征图缩小到1通道，得到最终预测密度图。

29、进一步地，所述步骤s201具体包括：

30、s2011、将该多尺度感知模块的输入特征图输入adaptiveavgpool2d，并将特征图的每个通道子特征图全局自适应平均池化至1×1大小，再通过一个conv2d卷积操作，然后采用upsample恢复至原特征图大小并采用sigmoid增加权重，得到该列的权重特征图；

31、s2012、将该多尺度感知模块的输入特征图输入卷积核为1，膨胀率为1，填充率为0的conv2d进行卷积操作，得到该列的第一多尺度特征图；

32、s2013、将该多尺度感知模块的输入特征图输入卷积核为3，膨胀率为2，填充率为2的conv2d进行卷积操作，得到该列的第二多尺度特征图；

33、s2014、将该多尺度感知模块的输入特征图输入卷积核为3，膨胀率为3，填充率为3的conv2d进行卷积操作，得到该列的第三多尺度特征图；

34、s2015、将该多尺度感知模块的输入特征图输入卷积核为3，膨胀率为6，填充率为6的conv2d进行卷积操作，得到该列的第四多尺度特征图；

35、s2016、将第一多尺度特征图、第二多尺度特征图、第三多尺度特征图、第四多尺度特征图分别与权重特本文档来自技高网...

【技术保护点】

1.一种跨模态上下文感知网络的RGBT人群计数方法，其特征在于，包括：

2.根据权利要求1所述的跨模态上下文感知网络的RGBT人群计数方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求1所述的跨模态上下文感知网络的RGBT人群计数方法，其特征在于，所述步骤S2具体包括：

4.根据权利要求3所述的跨模态上下文感知网络的RGBT人群计数方法，其特征在于，所述步骤S201具体包括：

5.根据权利要求3所述的跨模态上下文感知网络的RGBT人群计数方法，其特征在于，所述步骤S202具体包括：

6.根据权利要求3所述的跨模态上下文感知网络的RGBT人群计数方法，其特征在于，所述步骤S214具体包括：

7.根据权利要求1所述的跨模态上下文感知网络的RGBT人群计数方法，其特征在于，所述步骤S3具体包括：

8.根据权利要求1所述的跨模态上下文感知网络的RGBT人群计数方法，其特征在于，所述步骤S4具体包括：

【技术特征摘要】

1.一种跨模态上下文感知网络的rgbt人群计数方法，其特征在于，包括：

2.根据权利要求1所述的跨模态上下文感知网络的rgbt人群计数方法，其特征在于，所述步骤s1具体包括：

3.根据权利要求1所述的跨模态上下文感知网络的rgbt人群计数方法，其特征在于，所述步骤s2具体包括：

4.根据权利要求3所述的跨模态上下文感知网络的rgbt人群计数方法，其特征在于，所述步骤s201具体包括：

5.根据权利...

【专利技术属性】
技术研发人员：许召辉，沈世晖，马翼平，
申请(专利权)人：中航华东光电上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人