当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于特征交互的人群计数方法技术

技术编号:35450547 阅读:25 留言:0更新日期:2022-11-03 12:05
本发明专利技术公开了一种基于特征交互的人群计数方法,属于图像处理技术领域,包括以下步骤:将原始图像输入深度神经网络模型中进行特征提取;将三层语义特征图送入语义交互结构;将融合后的三层语义特征图分别输入多尺度注意力模块;将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合;将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合;将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果。本发明专利技术能够有效提高人群密度估计的准确率。率。率。

【技术实现步骤摘要】
一种基于特征交互的人群计数方法


[0001]本专利技术涉及图像处理
,尤其是一种基于特征交互的人群计数方法。

技术介绍

[0002]人群计数是计算机视觉和智能监控领域的重要研究内容,其目的是为了估计图像或视频场景中的人数。它在安全监测、交通管理、城市规划等领域有着广泛应用。例如:在疫情期间,控制人群密度可以降低出现聚集性传播的概率;在景区、体育场和广场等人群高度聚集的区域,通过发出预警信息可以防止出现踩踏事故等。近年来,基于卷积神经网络的人群计数方法已经成为人群计数的主流方法,其基本思想是使用卷积神经网络生成估计密度图,给每个像素赋予密度值,密度图的密度值总和记为场景中的总人数。
[0003]目前,由于拍摄距离和角度差异导致的尺度变化问题严重影响了计数结果的准确性。在同一人群图像内部或不同图像之间都会有剧烈的尺度变化,这种剧烈的尺度变化给基于卷积神经网络的人群密度预测带来巨大挑战。为了应对上述问题,专利技术人在专利技术专利“一种基于密度估计的人群计数方法及系统”(CN113538402B)中提出了一种基于密度估计的人群计数方法和系统,融合多层语义信息和多尺度信息,实现了较好的计数结果。
[0004]然而,基于密度估计的人群计数方法和系统存在以下问题:
[0005]1、仅将多层语义信息和多尺度信息进行简单的融合,结构简单,没有考虑到网络规模的限制性,这使得该方法的提取的语义信息和尺度信息并不充分。
[0006]2、在应对特征相似性问题上,该方法使用的注意力机制过于简单,没有考虑到跨维度信息的重要性,影响了计数的性能。
[0007]为了解决基于密度估计人群计数方法和系统的上述问题,需要对本专利技术人提出的基于密度估计人群计数方法和系统进行进一步的优化。

技术实现思路

[0008]本专利技术需要解决的技术问题是提供一种基于特征交互的人群计数方法,能够有效解决人群计数任务中的尺度变化问题,有助于生成高质量的人群密度图,提升多列网络的计数性能,具有较高的准确性和较好的鲁棒性,有效提高人群密度估计的准确率。
[0009]为解决上述技术问题,本专利技术所采用的技术方案是:
[0010]一种基于特征交互的人群计数方法,包括以下步骤:
[0011]将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,所述三层语义特征图包括低层语义特征图、中层语义特征图和高层语义特征图;
[0012]将三层语义特征图送入语义交互结构,得到对应融合后的三层语义特征图;
[0013]将融合后的三层语义特征图分别输入多尺度注意力模块,得到对应语义特征图的尺度感知信息特征;
[0014]将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合;
[0015]将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合,得到用于人群密度估计的主要特征图;
[0016]将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果。
[0017]本专利技术技术方案的进一步改进在于:将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,包括以下步骤:
[0018]将所述原始图像输入深度神经网络模型中,深度神经网络模型包括依次连接的两个卷积层、一个池化层、两个卷积层、一个池化层、三个卷积层和一个池化层,得到低层语义特征图;每个卷积层生成的特征图的通道数由输入至输出方向依次为64、64、128、128、256、256和256;卷积层的卷积核尺寸均为3*3;池化层的步长均为2;
[0019]将所述低层语义特征图继续输入所述深度神经网络模型中,依次经过三个卷积层和一个池化层,得到中层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3;池化层的步长为2;
[0020]将所述中层语义特征图继续输入所述深度神经网络模型中,经过三个卷积层,得到高层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3。
[0021]本专利技术技术方案的进一步改进在于:将三层语义特征图送入语义交互结构,包括以下步骤:
[0022]将所述高层语义特征图送入所述语义交互结构,得到高层语义特征图对应融合后的语义特征图;
[0023]将所述中层语义特征图送入所述语义交互结构,与所述高层语义特征图对应融合后的语义特征图进行交互,得到中层语义特征图对应融合后的语义特征图;
[0024]将所述低层语义特征图送入所述语义交互结构,与所述中层语义特征图对应融合后的语义特征图进行交互,得到低层语义特征图对应融合后的语义特征图。
[0025]本专利技术技术方案的进一步改进在于:所述语义交互结构,包括:
[0026]将高层语义特征图使用双线性插值进行上采样;
[0027]将所述高层语义特征图上采样的结果与中层语义特征图进行通道上的连接,得到中层语义特征图对应的中间特征;
[0028]将所述中间特征经过两个3*3卷积进行特征融合,得到中层语义特征图融合后的语义特征图。
[0029]得到中层语义特征图融合后的语义特征图使用双线性插值进行上采样;
[0030]将所述中层语义特征图上采样的结果与低层语义特征图进行通道上的连接,得到低层语义特征图对应的中间特征;
[0031]将所述中间特征经过两个3*3卷积进行特征融合,得到低层语义特征图融合后的语义特征图。
[0032]本专利技术技术方案的进一步改进在于:所述多尺度注意力模块包括4个具有不同感受野的分支、一个将4个分支结果在通道维度进行连接的操作、一个卷积层、一个额外的全局通道注意力机制和一个按元素相乘操作;每个分支依次包含一个卷积层、一个膨胀卷积层、多尺度交互结构和全局空间注意力机制;
[0033]所述全局通道注意力机制,包括:
[0034]将输入特征图进行通道、高度和宽度3个维度上的维度转置及平铺操作,得到维度转置及平铺操作后的特征图;
[0035]将所述维度转置及平铺操作后的特征图使用线性变换将特征图的通道维度降为原来的1/4,并使用ReLU激活函数进行非线性变换,再使用线性变换将通道维度变为与原特征图相同,来放大跨维度特征对通道维度的依赖性,得到经多层感知机处理后的特征图;
[0036]将所述经多层感知机处理后的特征图进行通道、高度和宽度3个维度上的维度转置及重塑操作,得到维度转置及重塑操作后的特征图;
[0037]将所述维度转置及重塑操作后的特征图进行Sigmoid函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图;
[0038]所述多尺度交互结构,包括:
[0039]将小感受野特征图交互后的结果与大感受野特征图进行通道上的连接,得到中间特征;
[0040]将所述中间特征使用一个3*3卷积进行特征融合后,得到融合后的多尺度交互特征图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征交互的人群计数方法,其特征在于:包括以下步骤:将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,所述三层语义特征图包括低层语义特征图、中层语义特征图和高层语义特征图;将三层语义特征图送入语义交互结构,得到对应融合后的三层语义特征图;将融合后的三层语义特征图分别输入多尺度注意力模块,得到对应语义特征图的尺度感知信息特征;将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合;将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合,得到用于人群密度估计的主要特征图;将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果。2.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,包括以下步骤:将所述原始图像输入深度神经网络模型中,深度神经网络模型包括依次连接的两个卷积层、一个池化层、两个卷积层、一个池化层、三个卷积层和一个池化层,得到低层语义特征图;每个卷积层生成的特征图的通道数由输入至输出方向依次为64、64、128、128、256、256和256;卷积层的卷积核尺寸均为3*3;池化层的步长均为2;将所述低层语义特征图继续输入所述深度神经网络模型中,依次经过三个卷积层和一个池化层,得到中层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3;池化层的步长为2;将所述中层语义特征图继续输入所述深度神经网络模型中,经过三个卷积层,得到高层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3。3.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:将三层语义特征图送入语义交互结构,包括以下步骤:将所述高层语义特征图送入所述语义交互结构,得到高层语义特征图对应融合后的语义特征图;将所述中层语义特征图送入所述语义交互结构,与所述高层语义特征图对应融合后的语义特征图进行交互,得到中层语义特征图对应融合后的语义特征图;将所述低层语义特征图送入所述语义交互结构,与所述中层语义特征图对应融合后的语义特征图进行交互,得到低层语义特征图对应融合后的语义特征图。4.根据权利要求1或3任一项所述的一种基于特征交互的人群计数方法,其特征在于:所述语义交互结构,包括:将高层语义特征图使用双线性插值进行上采样;将所述高层语义特征图上采样的结果与中层语义特征图进行通道上的连接,得到中层语义特征图对应的中间特征;将所述中间特征经过两个3*3卷积进行特征融合,得到中层语义特征图融合后的语义特征图;得到中层语义特征图融合后的语义特征图使用双线性插值进行上采样;
将所述中层语义特征图上采样的结果与低层语义特征图进行通道上的连接,得到低层语义特征图对应的中间特征;将所述中间特征经过两个3*3卷积进行特征融合,得到低层语义特征图融合后的语义特征图。5.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:所述多尺度注意力模块包括4个具有不同感受野的分支、一个将4个分支结果在通道维度进行连接的操作、一个卷积层、一个额外的全局通道注意力机制和一个按元素相乘操作;每个分支依次包含一个卷积层、一个膨胀卷积层、多尺度交互结构和全局空间注意力机制;所述全局通道注意力机制,包括:将输入特征图进行通道、高度和宽度3个维度上的维度转置及平铺操作,得到维度转置及平铺操作后的特征图;将所述维度转置及平铺操作后的特征图使用线性变换将特征图的通道维度降为原来的1/4,并使用ReLU激活函数进行非线性变换,再使用线性变换将通道维度变为与原特征图相同,来放大跨维度特征对通道维度的依赖性,得到经多层感知机处理后的特征图;将所述经多层感知机处理后的特征图进行通道、高度和宽度3个维度上的维度转置及重塑操作,得到维度转置及重塑操作后的特征图;将所述维度转置及重塑操作后的特征图进行
푆푖푔푚표푖
d函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图;所述多尺度交互结构,包括:将小感受野特征图交互后的结果与大感受野特征图进行通道上的连接,得到中间特征;将所述中间特征使用一个3*3卷积进行特征融合后,得到融合后的多尺度交互特征图;所述全局空间注意力机制,包括:将输入特征图经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数缩减为原来的1/4的特征图;将所述通道数缩减为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数与原始...

【专利技术属性】
技术研发人员:张世辉赵维勃崔志国王磊
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1