一种开放场景下密集人群图像中的行人计数方法技术

技术编号：41305130 阅读：5 留言：0更新日期：2024-05-13 14:50

本发明专利技术涉及一种开放场景下密集人群图像中的行人计数方法，使用骨干网络模型对人群场景图像进行表征提取并进行图像编码并获取置信度图，随后将编码图像输入二值化模块中利用可学习的阈值生成像素级的阈值编码，最后将置信度图二值化输出行人数量预测图，其中骨干网络模型是指在现有开源人群定位数据集上训练得到的人群定位深度学习模型，当给定来自现有公开数据的样本时，骨干网络模型对该样本进行人群表征提取，然后将取得的表征与真实标签对比进行训练，与二值化模块的预测结果进行一致性约束，其中该一致性约束通过对上述二者计算损失值得到。本发明专利技术解决了现有人群场景图像标注中，因过于密集的行人而造成行人计数感知误差较大的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机图像处理领域，涉及一种开放场景下密集人群图像中的行人计数方法。

技术介绍

1、随着人们生活水平提高，选择旅行的人数逐渐增多，特别是在节假日和周末。这种大规模的出行趋势给公共交通和旅游景点带来了巨大的挑战，甚至可能引发安全风险。在高度拥挤的环境中，若缺乏有效的管理和监督，很可能导致严重的安全事故。因此，如何有效地管理和进行人数检测和分析成为至关重要的社会安全任务。通过运用先进的技术手段，我们能够实时监测人群数量，预测拥挤情况，从而采取及时的预防和调控措施。

2、但是现阶段对拥挤人群的人数检测主要依靠人工现场监督或者监控辅助人工监督，但这种方法在面对大规模拥挤的情况下做出快速反应依然存在巨大的挑战性。随着深度学习和图像处理技术的成熟，通过深度学习方法对人群进行实时监控可以对一些安全事故的发生做到未雨绸缪。

3、然而，传统的基于检测的深度学习方法十分具有局限性，在集群环境或者非常密集的环境中的人之间的遮挡显著影响检测器的性能，会使得检测效果大打折扣。针对密集人群图像中的行人计数预测问题，目前尚未提出有效的解决方案。

技术实现思路

1、要解决的技术问题

2、为了避免现有技术的不足之处，本专利技术提出一种开放场景下密集人群图像中的行人计数方法，解决现有的对密集人群场景下的图像进行行人计数精度过低的问题。

3、技术方案

4、一种开放场景下密集人群图像中的行人计数方法，其特征在于：对每个行人的标注框利用图形学方法缩小

5、步骤1：采用骨干网络一组三通道rgb训练图像进行特征提取，得到特征图；

6、步骤2：将特征图输入置信度预测器中，得到置信度图i(x,y)，其中i(x,y)每个像素点被预测为正例的概率；所述输出数据与输入数据尺寸相同，输出通道数为1；

7、步骤3：将置信度图i(x,y)与步骤1的原图对应位置元素相乘，得到f图，并作为阈值编码器的输入；经过阈值编码器的具有prelu的四个卷积层和池化层后，得到逐像素的阈值图t(x,y)；

8、步骤4：将阈值图t(x,y)和置信度图i(x,y)同时输入二值化层进行比较，对置信度图进行二值化并输出得到图像o(x,y)；

9、步骤5：用置信度图i(x,y)与ground truth即真实值图g(x,y)计算mseloss损失：

10、

11、n为图中像素数量总和，yi为第i个像素位置的真实值，f(xi)为置信度图中对应位置的模型预测值。

12、使用预测出的二值化图o(x,y)与真实值图g(x,y)计算l1loss损失：

13、

14、n为图中像素数量总和，yi为第i个像素位置的真实值，f(xi)为二值化图中对应位置的模型预测值。

15、两个损失函数相加作为总损失loss，进行反向传播更新网络参数：

16、loss＝l1loss+mseloss

17、训练完成后得到一个能够用于开放场景下密集人群图像中的行人计数的模型；

18、步骤6：将一副待预测的图像，输入步骤5训练好的模型中，待预测的图像通过模型，在模型中使用骨干网络模型预测该图像的置信度图，然后使用二值化模块预测阈值，最后将置信度图值大于阈值图值的位置作为前景，全局连通区域作为背景。即可实现密集人群图像中的行人计数感知。

19、所述骨干网络采用卷积神经网络。

20、所述骨干网络是在现有开源源人群定位数据集上训练的任何人群定位深度网络模型，所述训练是指对使用骨干网络模型得到的图像表征与开源数据集中的图像标签进行损失函数的计算，并以此来使骨干网络进行学习。

21、所述人群定位数据集的每个元素为单张图片，对应的标签为一个二值图，其中，二值图的前景位置代表人群中的人头位置。

22、所述置信度预测器选取hr-net或vgg-16+fpn。

23、所述二值化模块包括阈值编码器和与阈值编码器连接的二值化层。

24、所述损失函数采用l1loss，用于训练阈值编码器，再引入mseloss训练置信度预测器。

25、所述训练以开源的人群定位数据集nwpu-crowd为样本，首先，将骨干网络预训练300轮，然后引入二值化模块和损失函数，按照步骤2再训练300轮。

26、一种所述开放场景下密集人群图像中的行人计数方法的应用，其特征在于包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述数据迁移方法的步骤，用于集群环境或者非常密集的环境中的人之间的遮挡时的对密集人群图像中的行人计数预测。一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述数据迁移方法的步骤。

27、一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述数据迁移方法的步骤。

28、有益效果

29、本专利技术提出的一种开放场景下密集人群图像中的行人计数方法，使用骨干网络模型对人群场景图像进行表征提取并进行图像编码并获取置信度图，随后将编码图像输入二值化模块中利用可学习的阈值生成像素级的阈值编码，最后将置信度图二值化输出行人数量预测图，其中骨干网络模型是指在现有开源人群定位数据集上训练得到的人群定位深度学习模型，当给定来自现有公开数据的样本时，骨干网络模型对该样本进行人群表征提取，然后将取得的表征与真实标签对比进行训练，与二值化模块的预测结果进行一致性约束，其中该一致性约束通过对上述二者计算损失值得到。本专利技术解决了现有人群场景图像标注中，因过于密集的行人而造成行人计数感知误差较大的问题。

本文档来自技高网...

【技术保护点】

1.一种开放场景下密集人群图像中的行人计数方法，其特征在于：对每个行人的标注框利用图形学方法缩小，直到每个标注框压缩到与其最近临近框不重叠，从而对密集人群且重叠图像中的行人计数，计数方法步骤如下：

2.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述骨干网络采用卷积神经网络。

3.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述骨干网络是在现有开源源人群定位数据集上训练的任何人群定位深度网络模型，所述训练是指对使用骨干网络模型得到的图像表征与开源数据集中的图像标签进行损失函数的计算，并以此来使骨干网络进行学习。

4.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述人群定位数据集的每个元素为单张图片，对应的标签为一个二值图，其中，二值图的前景位置代表人群中的人头位置。

5.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述置信度预测器选取HR-net或VGG-16+FPN。

6.根据权利要求1所述开放场景下密集人群图像中的

7.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述损失函数采用L1loss，用于训练阈值编码器，再引入MSELoss训练置信度预测器。

8.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述训练以开源的人群定位数据集NWPU-Crowd为样本，首先，将骨干网络预训练300轮，然后引入二值化模块和损失函数，按照步骤2再训练300轮。

9.一种权利要求1～8任一项所述开放场景下密集人群图像中的行人计数方法的应用，其特征在于包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至8任一项所述数据迁移方法的步骤，用于集群环境或者非常密集的环境中的人之间的遮挡时的对密集人群图像中的行人计数预测。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述数据迁移方法的步骤。

...

【技术特征摘要】

2.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述骨干网络采用卷积神经网络。

5.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述置信度预测器选取hr-net或vgg-16+fpn。

6.根据权利要求1所述开放场景下...

【专利技术属性】
技术研发人员：李学龙，高君宇，刘子淇，汪飞宇，刘远东，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人