一种基于双轨异构型的人群密度估计方法技术

技术编号：41203462 阅读：4 留言：0更新日期：2024-05-07 22:29

本发明专利技术属于图像处理技术领域，涉及基于一种基于双轨异构型的人群密度估计方法，使用基于VGG‑16模型的骨干网络提取底层特征，而后将初级特征流分别送入全局信息编码模块与局部信息编码模块，其内部均遵循特征金字塔范式以捕获不同尺度的感受野信息，异构模组的输出按通道方向堆叠得到异构特征流，然后并行通过双轨注意力网络，综合Sigmoid函数与Softmax函数的调制能力得到混合注意力，进而更高效地优化语义特征的全域表征能力，最终生成高质量的人群密度估计平面向量，并通过密度图积分以实现科学的人群计数，可用于智能视频监控场景的人群密度估计任务，能够高效地描述人群的密度与分布态势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理，涉及基于一种基于双轨异构型的人群密度估计方法。

技术介绍

1、

2、在真实的人群场景中，由于目标与摄像头之间的距离、角度存在较大差异，成像后人头会出现近大远小的特点，从而导致尺度连续变化问题。现有的基于卷积神经网络的方法往往使用多层输入或多个子网级联的模式来提取尺度特征，模型优化较为复杂。如mcnn在每一列中使用不同大小的卷积核捕捉多尺度特征，以此适应由于拍摄距离不同而导致的尺度变化。csrnet采用空洞卷积扩大感受野，以此取代池化操作，但容易导致网格效应，致使局部信息丢失，远距离信息间缺乏相关性。dadnet致力于多尺度特征融合方面的创新，主张使用多列空洞卷积有效地学习多尺度视觉信息，同时使用自适应可变形卷积定位人头的位置。sanet在编码器中设置inception布局提取多尺度特征，并在解码器中增设转置卷积生成高分辨率密度图。另一方面，在真实的人群图像中往往存在复杂的无关背景，例如道路车辆、植被树木、楼宇建筑等，在成像模糊时它们与稠密的人头特征极为相似，夜晚或雨雪雾天气下该问题更加突出，从而导致部分背景被误判为聚集的人群。现有的研究倾向于使用注意力机制监督前景特征提取，然而其或忽略通道层次中信息的重要性，或缺少对全局与局部特征信息的联合利用，难以处理不同类型的背景噪声，无法有效抑制复杂背景在深层次内的隐性表达。如ranet使用两个模块分别处理全局注意力与局部注意力，最后再根据特征间的相互依赖进行融合，但其依赖关系难以确定。cfanet认识到直接生成精确的注意力图通常是困难的，转而通过人群区

技术实现思路

1、为克服上述现有技术的不足，本专利技术提供一种基于双轨异构型的人群密度估计方法，用来解决人头尺度变化与背景复杂问题，可用于智能视频监控场景的人群密度估计任务，能够高效地描述人群的密度与分布态势。

2、为实现上述目的，本专利技术通过以下技术方案实现：

3、一种基于双轨异构型的人群密度估计方法，使用基于vgg-16模型的骨干网络提取底层特征，而后将初级特征流分别送入全局信息编码模块与局部信息编码模块，其内部均遵循特征金字塔范式以捕获不同尺度的感受野信息，异构模组的输出按通道方向堆叠得到异构特征流，然后并行通过双轨注意力网络，综合sigmoid函数与softmax函数的调制能力得到混合注意力，进而更高效地优化语义特征的全域表征能力，最终生成高质量的人群密度估计平面向量，并通过密度图积分以实现科学的人群计数，具体包括如下步骤：

4、(1)对shanghaitech数据集的parta部分预处理，采用最近邻算法的几何自适应核生成密度图；

5、(2)将步骤(1)得到的密度图输入至初级特征提取器中用于学习样本中边缘与纹理低层次特征得到特征图，再使用双线性插值算法对特征图做2倍空间的上采样操作，并将上采样后的特征图与第三次卷积得到的特征图通过通道拼接方式合并，然后经过1×1卷积得到初级特征流；

6、(3)将初级特征流送入异构型的全局信息编码模块和局部信息编码模块，将两类异构型编码模块的输出进行叠加得到异构特征流；

7、(4)将步骤(3)得到的异构特征流一分为二进入双轨注意力网络，并将双轨注意力网络的两通路输出结果进行对位相乘后按通道方向累加，得到融合注意力于特征信息的预测图；

8、(5)训练网络，保存最优参数作为最终的人群密度估计网络；

9、(6)使用真实的人群图像进行验证，将人群图像的宽和高调整为16的倍数后输入步骤(5)得到的人群密度估计网络，人群密度估计网络前向推理输出对应的密度估计图，对其积分即为人群数量的预测值。

10、作为本专利技术的进一步技术方案，步骤(1)对shanghaitech数据集的parta部分预处理的过程为：使用shanghaitech数据集的parta部分作为训练和验证用例，其数量分别为300张和182张，在训练阶段，随机裁剪得到400×400大小的图像块，并以50％的概率进行水平翻转，同时以10％的概率将彩色图像变更为灰色；在验证阶段，将样本尺寸调整为16的倍数；

11、生成的密度图为：式中f(x)表示密度图，δ表示标签整体，x与xi分别表示图像与标签中目标的位置；g(x)为高斯分布，使用具有参数为σi的高斯核对δ(x-xi)进行卷积，其中表示距xi最近的k个点注释之间距离的平均值，k与μ均为固定常数。

12、作为本专利技术的进一步技术方案，步骤(2)所述初级特征提取器包含vgg-16的前13层卷积与4次最大池化操作。

13、作为本专利技术的进一步技术方案，步骤(3)所述将局部信息编码模块采用四分支的卷积滤波器金字塔架构，卷积滤波器从上往下卷积核尺寸递增；全局信息编码模块采用三路合并的卷积滤波器，卷积滤波器在1×1，3×3，5×5中选择；得到的异构特征流为：fmul＝fglobal||flocality，其中fglobal为全局信息编码模块的输出，

14、fglobal＝(c1×1(c3×3(c1×1)))||(c3×3(c1×1(c3×3)))||(c3×3(c5×5(c3×3)))；flocality为局部信息编码模块的输出，flocality＝(c1×1(c3×3))||(c3×3(c3×3))||(c3×3(c5×5))||(c5×5(c5×5))，cn×n表示尺寸为n×n的卷积运算；||表示通道堆叠操作。

15、作为本专利技术的进一步技术方案，步骤(4)的具体过程为：异构特征流在双轨注意力网络的上侧通路中，依次经由relu与sigmoid激活函数，生成[0,1]之间的概率分布即混合注意力fatt，混合注意力fatt经softmax归一化后每个像素点学习到此位置在所有通道层中的动态权重；在下侧通路中，先采用两次3×3卷积重整特征信息，再使用1×1卷积将之调整到与fatt相同的尺寸，即多通道特征图，再将两通路的输出进行对位相乘后按通道方向累加，得到融合注意力于特征信息的预测图，用fpre表示：其中exp表示幂运算，f′(i，j)表示中间特征图的某个具体位置。

16、作为本专利技术的进一步技术方案，步骤(5)的具体过程为：使用步骤(1)处理shanghaitech数据集的parta部分，输入图像块尺寸为400×400×3，批次尺寸设置为16，整个网络的训练输入为i∈r16×3×400×400，经步骤(2)-(4)后输出尺寸为o∈r16×1×50×50的密度估计图，通过计算人工密度图标签与密度估计图之间的像素差异来进行有监督的训练，网络的损失函数为：式中xk表示训练中输入的第k张图像，dk表示其对应的密度图标签，θ表示密度估计网络中的可学习参数，(xk；θ)意为网络对此图像输出的最终密度估计图；在训练过程中，使用自适应矩估计算法计算网络参数的自适应学习率，初始学习率为1e-4，每100轮减半一次本文档来自技高网...

【技术保护点】

1.一种基于双轨异构型的人群密度估计方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(1)对ShanghaiTech数据集的PartA部分预处理的过程为：使用ShanghaiTech数据集的PartA部分作为训练和验证用例，其数量分别为300张和182张，在训练阶段，随机裁剪得到400×400大小的图像块，并以50％的概率进行水平翻转，同时以10％的概率将彩色图像变更为灰色；在验证阶段，将样本尺寸调整为16的倍数；

3.根据权利要求2所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(2)所述初级特征提取器包含VGG-16的前13层卷积与4次最大池化操作。

4.根据权利要求3所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(3)所述将局部信息编码模块采用四分支的卷积滤波器金字塔架构，卷积滤波器从上往下卷积核尺寸递增；全局信息编码模块采用三路合并的卷积滤波器，卷积滤波器在1×1，3×3，5×5中选择；得到的异构特征流为：Fmul＝Fglobal∥Flocality，其中Fgl

5.根据权利要求4所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(4)的具体过程为：异构特征流在双轨注意力网络的上侧通路中，依次经由ReLU与Sigmoid激活函数，生成[0,1]之间的概率分布即混合注意力Fatt，混合注意力Fatt经Softmax归一化后每个像素点学习到此位置在所有通道层中的动态权重；在下侧通路中，先采用两次3×3卷积重整特征信息，再使用1×1卷积将之调整到与Fatt相同的尺寸，即多通道特征图，再将两通路的输出进行对位相乘后按通道方向累加，得到融合注意力于特征信息的预测图，用Fpre表示：其中exp表示幂运算，F′(i，j)表示中间特征图的某个具体位置。

6.根据权利要求5所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(5)的具体过程为：使用步骤(1)处理ShanghaiTech数据集的PartA部分，输入图像块尺寸为400×400×3，批次尺寸设置为16，整个网络的训练输入为I∈R16×3×400×400，经步骤(2)-(4)后输出尺寸为O∈R16×1×50×50的密度估计图，通过计算人工密度图标签与密度估计图之间的像素差异来进行有监督的训练，网络的损失函数为：式中X表示训练中输入的第k张图像，Dk表示其对应的密度图标签，Θ表示密度估计网络中的可学习参数，(Xk；Θ)意为网络对此图像输出的最终密度估计图；在训练过程中，使用自适应矩估计算法计算网络参数的自适应学习率，初始学习率为1E-4，每100轮减半一次，保存验证集上结果最好的参数集合作为最终的人群密度估计网络。

...

【技术特征摘要】

1.一种基于双轨异构型的人群密度估计方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(1)对shanghaitech数据集的parta部分预处理的过程为：使用shanghaitech数据集的parta部分作为训练和验证用例，其数量分别为300张和182张，在训练阶段，随机裁剪得到400×400大小的图像块，并以50％的概率进行水平翻转，同时以10％的概率将彩色图像变更为灰色；在验证阶段，将样本尺寸调整为16的倍数；

3.根据权利要求2所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(2)所述初级特征提取器包含vgg-16的前13层卷积与4次最大池化操作。

4.根据权利要求3所述基于双轨异构型的人群密度估计方法，其特征在于，步骤(3)所述将局部信息编码模块采用四分支的卷积滤波器金字塔架构，卷积滤波器从上往下卷积核尺寸递增；全局信息编码模块采用三路合并的卷积滤波器，卷积滤波器在1×1，3×3，5×5中选择；得到的异构特征流为：fmul＝fglobal∥flocality，其中fglobal为全局信息编码模块的输出，fglobal＝(c1×1(c3×3(c1×1)))∥(c3×3(c1×1(c3×3)))∥(c3×3(c5×5(c3×3)))；flocality为局部信息编码模块的输出，flocality＝(c1×1(c3×3))∥(c3×3(c3×3))∥(c3×3(c5×5))∥(c5×5(c5×5))，cn×n表示尺寸为n×n的卷积运算；∥表...

【专利技术属性】
技术研发人员：刘寒松，王永，王国强，刘瑞，
申请(专利权)人：松立控股集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人