一种基于编解码结构的人群计数定位方法技术

技术编号：32518402 阅读：22 留言：0更新日期：2022-03-02 11:17

本发明专利技术公开了一种基于编解码结构的人群计数定位方法，涉及计算机视觉领域，解决现有技术中对特征的利用不够充分、标签图不能很好的兼顾计数和定位任务的问题，本发明专利技术技术方案其一是提出了一种编解码结构的计数定位网络，并在网络深层引入了多尺度特征融合模块，以及再解码部分引入了空间

全部详细技术资料下载

【技术实现步骤摘要】
一种基于编解码结构的人群计数定位方法

[0001]本专利技术涉及计算机视觉领域，具体涉及一种基于编解码结构的人群计数定位方法。

技术介绍

[0002]人群计数及定位是通过算法预测人群中的数量信息及位置信息。该技术广泛用于城市管理，智能安防等领域，尤其是在人群聚集场所，对于预防各种意外事件的发生和加强区域管理具有重要意义。目前，在计数领域，广泛使用的方法是通过卷积神经网络回归得到密度图，然后对密度图进行积分求和得到人数信息。但是密度图在稍密集的区域便会出现重叠现象(如图8(b))，不利于定位，为了拓展网络应用场景，一种做法是利用FIDT图(如图8(c))替代密度图当做深度学习回归标签进行训练，再将图片送入训练好的网络得到预测图，然后通过LMDS算法寻求峰值点，从而给出定位和计数信息。然而，相较于密度图，FIDT图虽然定位性能更好，但其计数方式却更为繁琐且对标签图的回归质量有较高要求。此外，在网络结构方面，为了获得高质量的回归图，编解码结构被许多算法采用，其大致流程是将图片先进行编码提取特征，再逐步上采样至输入尺寸进行解码，但编解码结构在网络深层存在特征丢失，限制了其性能发挥；另一方面，实际场景中人头往往尺度不一，这就要求网络还要具备捕获多尺度信息的能力。对于上述问题，本文从标签图和特征融合两个方面进行解决。
[0003]现存技术存在的主要问题及缺陷是：
[0004]对特征的利用不够充分：现实场景中，由于摄像机透视效应的影响，同一张图片，人头部尺寸往往存在较大差异，但简单的编解码结构并不能很好的捕捉多尺度

【技术保护点】

【技术特征摘要】
1.一种标签图生成方法，其特征在于，所述方法包括以下步骤：步骤S1、制作数据集；先采集实际场景中包括不同环境下的人群图像数据，再对数据进行标注；步骤S2、生成标签图；根据标注好的数据生成标签图，标签图的生成方式如下：步骤S2、生成标签图；根据标注好的数据生成标签图，标签图的生成方式如下：步骤S2、生成标签图；根据标注好的数据生成标签图，标签图的生成方式如下：其中，B为标注点坐标集合，(x
′
，y
′
)为标记点在标签图中的像素坐标，其中x
′
表示标记点在标签图中横坐标，y
′
表示标记点在标签图中纵坐标；(x，y)表示图像中任意一点的像素坐标，其中x为图像中任意一点的横坐标，y为图像中任意一点的纵坐标，P(x，y)表示的是图中坐标(x，y)处到与之相距最近的标记点的距离，I(x，y)即为FIDT图中坐标(x，y)处对应点值，I
′
(x，y)表示本发明所提标签图坐标(x，y)处对应点的值，count表示图片中的真实人数，m、n分别表示图片的宽高，I(x
i
，y
i
)表示FIDT图中第i个点的值，(x
i
，y
i
)表示FIDT图中第i个点的坐标，其中，x
i
和y
i
分别表示FIDT图中第i个点的横纵坐标。2.根据权利要求1所述的一种基于编解码结构的人群计数定位方法，其特征在于，所述S1中对数据进行标注时，采用头部中心进行标记。3.一种基于编解码结构的人群计数定位方法，其特征在于，所述方法包括以下步骤：步骤1：构建网络模型，以ResNet50作为编码部分的特征提取网络，在编码结束时融入多尺度特征融合模块，在解码部分采用上采样加卷积的方式进行解码，并通过空间
‑
通道注意力上采样模块进行高低层特征的融合；步骤2：利用步骤S1采集的数据、同步骤S2生成的标签进行训练，损失函数设计为欧式距离损失和平均绝对误差相结合的方式，如下所示：其中，L(θ)表示损失函数，F
i
为第i幅标签图，F
i
(x
i
，θ)为对应预测图，θ为学习参数，N为图片数量；步骤3：进行计数定位测试，将图片送入训练好的模型中，若只需计数，将预测图进行积分求和即可，若还需定位，则利用LMDS算法对预测图进行进一步处理，得到定位信息及框图。4.根据权利要求3所述的一种基于编解码结构的人群计数定位方法，其特征在于，所述步骤1中的特征提取网络，具体由Resnet50的7x7卷积、最大池化层及前三个残差...

【专利技术属性】
技术研发人员：黄进，杨涛，王晴，杨旭，李剑波，方铮，冯义从，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人