System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向跨模态特征融合的人群计数方法和装置制造方法及图纸_技高网

一种面向跨模态特征融合的人群计数方法和装置制造方法及图纸

技术编号:40545625 阅读:4 留言:0更新日期:2024-03-05 19:03
一种面向跨模态特征融合的人群计数方法和装置,其方法包括:获取RGB可见光图像和对应的热红外图像;分别将RGB图像和热红外图像输入VGG16网络的五组卷积阶段,通过每一阶段的特征提取,得到RGB图像的特征图和热红外图像的特征图;根据热红外图像的特征图得到前景注意力掩膜图;利用前景注意力掩膜图得到细化的RGB图像的特征图;分别提取RGB图像特征图的权值和热红外图像特征图的权值;利用权值激活RGB图像的特征图和热红外图像的特征图;利用通道注意力和空间注意力,融合RGB图像和热红外图像的增强特征图,得到最终特征图;最终特征图通过卷积操作和激活函数得到密度估计图,根据密度估计图得到人群的计数结果。本发明专利技术可提高人群计数的准确率和鲁棒性。

【技术实现步骤摘要】

本专利技术属于人群计数领域,涉及了一种基于rgb图像和热红外图像的跨模态的人群计数方法和装置。背景介绍随着城市化进程的快速推进,人口密集区域的人群数量不断增加,如火车站、演唱会等。当公共场合人群过于密集时,容易发生不可控的事故,因此需要对人群数量进行实时监测和计数,以确保公共安全,防范潜在的安全风险。人群计数是通过图像或视频,预测场景中人数的任务。为了实现拥堵避免、公共安全和流量分析,人群计数领域开始在城市规划、公共安防、交通流量监控等领域广泛应用。因此,人群计数研究在促进城市发展、提升公共服务水平以及推动科技创新方面具有重要的意义。随着深度学习的发展,基于卷积神经网络以及通过密度图计数的方法能够快速高效地获取图像信息。一般的rgb可见光图像善于感知人物的形状和纹理,可以保存丰富的细节和纹理信息。但在光线不足、烟雾、复杂背景干扰等场景下,传统单模态人群计数往往无法有效地区分目标与背景。此外,由于图像中存在不同景深的人物,人物尺度变化多样,进而引发了尺度变化问题。传统卷积方法采用固定的核大小来提取特征,这种方法往往难以实现高精度的特征提取。且存在网络深层次的感受野有限,导致部分全局信息的缺失的问题。随着网络深度的增加,局部信息也容易被忽略,进一步影响了特征的准确提取。


技术介绍


技术实现思路

1、本专利技术要克服现有技术的上述缺点,设计一种面向跨模态特征融合的人群计数方法和装置,可以提高人群计数的准确率和鲁棒性。

2、为实现上述目的,本专利技术的第一个方面提供了如下方案:

>3、一种面向跨模态特征融合的人群计数方法,包括:

4、s1:获取rgb可见光图像和对应的热红外图像;

5、s2:分别将rgb图像和热红外图像输入vgg16网络的五组卷积阶段,通过每一阶段的特征提取,得到rgb图像的特征图和热红外图像的特征图;

6、s3:根据热红外图像的特征图得到前景注意力掩膜图;

7、s4:利用前景注意力掩膜图得到细化的rgb图像的特征图;

8、s5:分别提取rgb图像特征图的权值和热红外图像特征图的权值;

9、s6:利用权值激活rgb图像的特征图和热红外图像的特征图;

10、s7:利用通道注意力和空间注意力,融合rgb图像和热红外图像的增强特征图,得到最终特征图;

11、s8:最终特征图通过一系列卷积操作和激活函数得到密度估计图,根据密度估计图得到人群的计数结果。

12、步骤s2所述的输入vgg16网络的五组卷积阶段,通过每一阶段的特征提取,得到rgb图像的特征图和热红外图像的特征图,具体包括:

13、将图像输入vgg16网络的五层,模型结构由上至下为,layer1:两个卷积层,一个池化层;layer2:两个卷积层,一个池化层;layer3:三个卷积层,一个池化层;layer4:三个卷积层,一个池化层;layer5:三个卷积层,一个池化层。得到rgb图像的特征图和热红外图像的特征图。

14、步骤s3所述的根据热红外图像的特征图得到前景注意力掩膜图,具体包括:

15、将热红外图像经过全局平均池化,权重归一化,并扩展通道数,得到一个与输入热红外图像相同尺寸的前景注意力掩膜图。

16、步骤s4所述的利用前景注意力掩膜图得到细化的rgb图像的特征图,具体包括:

17、将前景注意力掩膜图与rgb图像的特征图做通道级别乘法,进行逐元素相乘,得到细化后的rgb图像的特征图。

18、步骤s5所述的分别提取rgb图像特征图的权值和热红外图像特征图的权值,具体包括:

19、将细化后的rgb图像的特征图和热红外图像的特征图,分别通过全局平均池化和mlp多层感知器来提取权值,得到rgb权值和热红外权值。

20、步骤s6所述的利用权值激活rgb图像的特征图和热红外图像的特征图,具体包括:

21、将得到的权值r和t经过矩阵乘法,乘上通道数保证权重的有效激活,再进行通道级别乘法,得到精准rgb图像特征和精准热红外图像特征。

22、步骤s7所述的利用通道注意力和空间注意力,融合rgb图像和热红外图像的增强特征图,得到最终特征图,具体包括:

23、将精准rgb图像特征和精准热红外图像特征进行级联操作,通过深度卷积操作、全局最大池化操作、mlp多层感知器、sigmoid激活函数产生权重信息,再将权重和特征经过通道级别乘法、1×1卷积层合并、逐元素乘法得到增强的双模态级联特征,分离后再经过通道级相加操作得到最终的特征图。

24、步骤s8所述的最终特征图通过一系列卷积操作和激活函数得到密度估计图,根据密度估计图得到人群的计数结果,具体包括:

25、输入最终特征图,经过三个卷积层和两个relu激活层得到密度估计图,根据密度估计图得到人群的计数结果。

26、本专利技术的第二个方面涉及一种面向跨模态特征融合的人群计数装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本专利技术的一种面向跨模态特征融合的人群计数方法。

27、本专利技术的第三个方面涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本专利技术的一种面向跨模态特征融合的人群计数方法。

28、与rgb图像不同,热红外图像对光照变化不敏感,在光照条件恶劣的场景,可以免受这些因素的影响。因此可以利用两种模态的图像特征,将互补的特征信息融合,提升人群计数的精度和鲁棒性。利用注意力机制对特征进行提取并融合,并逐步细化特征,有效将目标与背景分离。充分利用图像中的上下文信息,融合全局、局部特征,提升密度图精度,克服多尺度变化问题。人群计数模型的密度图精度和鲁棒性需要进一步提升,而加入注意力机制可适用于大尺度变化、视角变化和复杂背景等场景。应用注意力机制可以突出重点区域,将目标与背景分离。同时由于热红外图像的特殊性,也可以轻松的分离复杂背景或黑暗场景下的目标和背景。

29、本专利技术的优点是:可以提高人群计数的准确率和鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种面向跨模态特征融合的人群计数方法,其特征在于,包括:

2.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述S2,具体包括:

3.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述S3,具体包括:

4.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述S4,具体包括:

5.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述S5,具体包括:

6.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述S6,具体包括:

7.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述S7,具体包括:

8.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述S8,具体包括:

9.一种面向跨模态特征融合的人群计数装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8中任一项所述的一种面向跨模态特征融合的人群计数方法。

10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-8中任一项所述的一种面向跨模态特征融合的人群计数方法。

...

【技术特征摘要】

1.一种面向跨模态特征融合的人群计数方法,其特征在于,包括:

2.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述s2,具体包括:

3.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述s3,具体包括:

4.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述s4,具体包括:

5.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述s5,具体包括:

6.根据权利要求1所述的一种面向跨模态特征融合的人群计数方法,其特征在于,所述s6,具体包括:

【专利技术属性】
技术研发人员:董天阳胡克凡
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1