监控视角下的轻型人群定位方法技术

技术编号:36746650 阅读:27 留言:0更新日期:2023-03-04 10:29
本发明专利技术涉及一种监控视角下的轻型人群定位方法,属于计算机视觉,图像处理技术领域。面向复杂人群场景,该方法通过使用轻量化卷积模块与轻量化注意力机制构建模型,从而有效的压缩了模型体积。由于全部采用轻量化模块构建网络,并采用了提前下采样、将ReLU替换为PReLU等策略,最终在高效压缩模型体积的同时,维持了较高的人群定位性能。本发明专利技术方法高效的压缩了人群定位模型的体积,并达到了相当高的人群定位与计数性能。位与计数性能。位与计数性能。

【技术实现步骤摘要】
监控视角下的轻型人群定位方法


[0001]本专利技术属于计算机视觉,图像处理
,具体涉及一种监控视角下的轻型人群定位算法。

技术介绍

[0002]人群分析是公共安全领域的一项重要任务,包括人群计数、人群定位、目标人群追踪、客流控制、人群异常事件检测、人群分割、群体检测等任务。而人群定位是人群场景安全预警的一项基础任务。快速而准确的实现监控视角下的人群定位是人群分析领域的一项重要任务。
[0003]文献“J.Gao,T.Han,Y.Yuan,and Q.Wang,Learning Independent Instance Maps for Crowd Localization.arXiv preprint,arXiv:2012.04164,2020”提出了一种基于独立实例图的人群定位方法。该方法首先通过HRNet或VGG16作为骨干网络预测人群场景中的人头区域的置信度,然后利用二值化分割模块输出图像的二值化分割实例图。二值化分割模块由一个阈值编码器和一个二值化层组成。前者对图像的特征图进行编码,生成单个值或相应的映射图。后者利用这个值或映射对置信图进行二值化,并输出实例映射。在训练阶段,二值化分割模块持续对阈值进行优化。而在测试阶段,阈值则是固定的,根据阈值进行二值化分割,检测二值化实例图中元素的连通性,输出人群定位的边界框。然而,为了提取到足够多的细节特征,在预测人头区域的置信度时往往需要使用较大体积的特征提取网络,这导致算法的开销非常大,需要占用大量的内存资源,严重限制了算法的应用范围。
专利
技术实现思路

[0004]要解决的技术问题
[0005]为了避免现有技术的不足之处,本专利技术提供一种新的监控视角下的轻型人群定位方法。
[0006]技术方案
[0007]一种监控视角下的轻型人群定位方法,其特征在于包括三个模块:编码器模块、解码器模块和定位模块;
[0008]所述的编码器模块:
[0009]输入监控图像,将其转化为矩阵,对其进行初始化下采样操作,即对输入矩阵同时进行卷积与全局池化操作后,然后在通道维度上对二者的输出矩阵进行拼接操作得到初始图像矩阵C;
[0010]将初始图像矩阵C输入依次输入编码器第一部分、编码器第二部分、编码器第三部分进行特征提取,得到特征矩阵F;所述的编码器第一部分包括一个下采样瓶颈块和4个常规瓶颈块;所述的编码器第二部分由一个下采样瓶颈块、第一常规瓶颈块、2倍膨胀瓶颈块、第一非对称瓶颈块、4倍膨胀瓶颈块、第二常规瓶颈块、8倍膨胀瓶颈块、第二非对称瓶颈块、16倍膨胀瓶颈块串联组成;所述的编码器第三部分由第一常规瓶颈块、2倍膨胀瓶颈块、第
一非对称瓶颈块、4倍膨胀瓶颈块、第二常规瓶颈块、8倍膨胀瓶颈块、第二非对称瓶颈块、16倍膨胀瓶颈块串联组成;所述的下采样瓶颈块是将常规瓶颈块中的池化操作步长设置为2,并将卷积操作的步长设置为2组成的;所述的膨胀瓶颈块用膨胀卷积代替常规瓶颈块中的卷积操作构成的,所述的非对称瓶颈块是将普通卷积分解成两个非对称卷积组成的;
[0011]所述的解码器模块:
[0012]将特征矩阵F输入串联的第一轻量化解码器、第二轻量化解码器,得到置信矩阵P;对置信矩阵P进行阈值分割操作,得到预测实例图P1;
[0013]所述的第一轻量化解码器由一个2倍上采样瓶颈块、一个常规瓶颈块、一个轻量化注意力瓶颈块串联组成;所述上采样瓶颈块是用转置卷积替换普通卷积形成的,2倍上采样瓶颈块即转置卷积的步长为2,4倍上采样瓶颈块即转置卷积的步长为4;所述轻量化注意力瓶颈块是用置换注意力卷积替换常规瓶颈块中的卷积操作得来的;
[0014]所述的第二轻量化解码器由一个4倍上采样瓶颈块、一个常规瓶颈块、一个轻量化注意力瓶颈块串联组成;
[0015]所述定位模块:
[0016]检测预测实例图P1每一像素与周围像素的连通性,即可获得对人头中心点及人头区域的预测;根据上述预测,在输入图像中绘制出人头框,输出人群定位的结果,并可基于上述预测,获取人群计数的结果。
[0017]本专利技术进一步的技术方案:所述的常规瓶颈块结构方式为:输入矩阵M分为两个通道,其中一个通过最大池化与填充得到M1,另一个通道M依次通过降维、卷积、升维、正则化生成矩阵M2,将M1与M2在通道上进行拼接并使用PReLU激活函数得到最终的矩阵N。
[0018]本专利技术进一步的技术方案:对置信矩阵P进行阈值分割操作,得到预测实例图P1具体为:将第二轻量化解码器得到的特征矩阵F2按照0.5的阈值进行分割,大于0.5的像素设置为1,小于等于0.5的像素设置为0,得到预测实例图P1。
[0019]一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
[0020]一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
[0021]有益效果
[0022]本专利技术提供的一种监控视角下的轻型人群定位方法,具体来说面向复杂人群场景,该方法通过使用轻量化卷积模块与轻量化注意力机制构建模型,从而有效的压缩了模型体积。由于全部采用轻量化模块构建网络,并采用了提前下采样、将ReLU替换为PReLU等策略,最终在高效压缩模型体积的同时,维持了较高的人群定位性能。
[0023]与目前的基于深度学习的人群定位方法相比,该方法的模型体积不足目前主流的人群定位算法的1/10,在有效的压缩模型体积的同时,达到了与目前最优模型相当的定位与计数性能。本专利技术方法高效的压缩了人群定位模型的体积,并达到了相当高的人群定位与计数性能。
附图说明
[0024]附图仅用于示出具体实施例的目的,而并不认为是对本专利技术的限制,在整个附图中,相同的参考符号表示相同的部件。
[0025]图1展示了本专利技术的具体流程图。其中左侧为本专利技术中编码器模块的流程图,中间为本专利技术中解码器模块的流程图,右侧的部分为本专利技术中定位模块的流程图。
[0026]图2展示了本专利技术在ShanghaiTech Part B数据集中的一个示例,通过圆圈画出算法定位到的人头位置。
[0027]图3常规瓶颈块的组成。
具体实施方式
[0028]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。此外,下面描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0029]本专利技术提出了一种监控视角下的轻量化人群定位方法,可以在有限的模型体积限制下有效的从监控场景图像中提取特征。它被命名为“置换注意力高效网络”(简称SAENet),本专利技术提出的SAENet框架包含三个模块:编码器、解码器和定位模块。
[0030]编码器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监控视角下的轻型人群定位方法,其特征在于包括三个模块:编码器模块、解码器模块和定位模块;所述的编码器模块:输入监控图像,将其转化为矩阵,对其进行初始化下采样操作,即对输入矩阵同时进行卷积与全局池化操作后,然后在通道维度上对二者的输出矩阵进行拼接操作得到初始图像矩阵C;将初始图像矩阵C输入依次输入编码器第一部分、编码器第二部分、编码器第三部分进行特征提取,得到特征矩阵F;所述的编码器第一部分包括一个下采样瓶颈块和4个常规瓶颈块;所述的编码器第二部分由一个下采样瓶颈块、第一常规瓶颈块、2倍膨胀瓶颈块、第一非对称瓶颈块、4倍膨胀瓶颈块、第二常规瓶颈块、8倍膨胀瓶颈块、第二非对称瓶颈块、16倍膨胀瓶颈块串联组成;所述的编码器第三部分由第一常规瓶颈块、2倍膨胀瓶颈块、第一非对称瓶颈块、4倍膨胀瓶颈块、第二常规瓶颈块、8倍膨胀瓶颈块、第二非对称瓶颈块、16倍膨胀瓶颈块串联组成;所述的下采样瓶颈块是将常规瓶颈块中的池化操作步长设置为2,并将卷积操作的步长设置为2组成的;所述的膨胀瓶颈块用膨胀卷积代替常规瓶颈块中的卷积操作构成的,所述的非对称瓶颈块是将普通卷积分解成两个非对称卷积组成的;所述的解码器模块:将特征矩阵F输入串联的第一轻量化解码器、第二轻量化解码器,得到置信矩阵P;对置信矩阵P进行阈值分割操作,得到预测实例图P1;所述的第一轻量化解码器由一个2倍上采样瓶颈块、一个常规瓶颈块、一个轻量化注意力瓶颈块串联组成;所述上采样瓶颈块是用转置卷积替换普通卷积形成的,2倍上采样瓶颈块即转置卷积...

【专利技术属性】
技术研发人员:李学龙周欣高君宇
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1