一种基于多尺度注意力机制的视频图像人群计数方法技术

技术编号:36420708 阅读:71 留言:0更新日期:2023-01-20 22:28
本发明专利技术涉及一种基于多尺度注意力机制的视频图像人群计数方法,与现有技术相比解决了在复杂场景干扰下难以保证人群计数精确性的缺陷。本发明专利技术包括以下步骤:人群图像的获取和预处理;真实人群密度图的生成;构建多尺度注意力机制模块;人群计数模型的构建;人群计数模型的训练;待检测视频图像的获取;视频图像人群的计数。本发明专利技术设计了多尺度注意力模块,在不同的尺度分支中嵌入注意力机制来降低模型在不同尺度下无关背景噪声的影响,同时增加模型的尺度多样性。模型的尺度多样性。模型的尺度多样性。

【技术实现步骤摘要】
一种基于多尺度注意力机制的视频图像人群计数方法


[0001]本专利技术涉及视频图像处理
,具体来说是一种基于多尺度注意力机制的视频图像人群计数方法。

技术介绍

[0002]公共场所容易出现人群聚集,随着视频监控技术的发展和普及,可以利用监控图像去预测的监控图像中人群数量,当人群数量超过警戒阈值时发布预警信息或采取疏散措施。
[0003]基于计算机视觉的人群计数应用在视频监控、智能交通等领域。由于室外监控拍摄的人群图像场景中人群尺度变化大,背景复杂,对人群计数的准确率干扰很大,对于室外场景的图像的人群计数问题,人群的拥挤和人群尺度的变化和人群的背景的嘈杂都为影响人群计数的准确性。
[0004]在一些背景复杂的人群场景中,远离相机的树叶、车辆、图画中的人脸或者其他一些小型目标常被回归量误判为人的头部,这一现象会明显的降低预测结果的准确性,所以研究人员就需要将这些复杂背景的干扰区域去除,以免产生不必要的计数。图像分割是图像处理领域的研究热点,也是图像分析的基础。随着分割技术的改进,在进行人群计数时可以采用这一技术对前景和背景信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度注意力机制的视频图像人群计数方法,其特征在于,包括以下步骤:11)人群图像的获取和预处理:获取人群图像并对其进行预处理,生成训练数据集;12)真实人群密度图的生成:根据预处理后的人群图像,生成真实人群密度图;13)构建多尺度注意力机制模块:构建输入特征图、输出尺度多样性权重通道特征图的多尺度注意力机制模块;14)人群计数模型的构建:基于多尺度注意力机制模块构建人群计数模型;15)人群计数模型的训练:将人群图像和生成的真实人群密度图对应到人群计数模型的输入和输出,通过神经网络的训练,拟合人群计数模型中的参数,使人群计数模型输出的估计人群密度图和真实人群密度图的相似性达到设定要求;16)待检测视频图像的获取:获取待检测视频图像,并进行预处理;17)视频图像人群的计数:将预处理后的待检测视频图像输入训练后的人群计数模型,得到人群预测密度图;通过对人群预测密度图积分得到人群计数,积分公式如下式所示m、n分别表示生成的人群密度图的长、宽,P
pixel
(x
i
,y
i
)表示人群密度图中像素位置为(x
i
,y
i
)处的像素值,像素值的区间大小为[0,1],C
count
表示求得的预测人数;最终得到视频图像人群计数结果。2.根据权利要求1所述的一种基于多尺度注意力机制的人群计数方法,其特征在于,所述真实人群密度图的生成包括以下步骤:21)获取训练数据集,并进行人头标记,每个人头在图像上记录人头中心的坐标x
i
;22)对已标注人头中心坐标的训练数据集中图像,以0.5的比例进行随机镜像和以0.3的比例进行伽马对比变换;23)采用几何自适应高斯卷积的方法生成真实人群密度图,其表达式如下:其中,x
i
表示标注的头部中心位置坐标,N为整张图像上的总人数,δ(x

x
i
)表示脉冲函数,G
σi
(x)表示像素坐标x上的高斯核函数,标准差σ
i
通过K最近邻的平均距离乘以常数计算得到。3.根据权利要求1所述的一种基于多尺度注意力机制的人群计数方法,其特征在于:所述构建多尺度注意力机制模块包括以下步骤:31)设定多尺度注意力机制模块的输入为特征图;32)对输入的特征图分别通过卷积核大小不同的卷积,形成四个尺度分支:第一个尺度分支是3
×
3卷积,第二尺度分支是5
×
5卷积和第一个分支融合,第三个尺度分支是7
×
7卷积和第二个尺度分支融合,第四个尺度分支是9
×
9卷积和第三个尺度分支融合;33)将四个尺度分支通过1
×
1卷积调整成通道数相等;34)对四个不同尺度分支输出的特征图在通道维度上通过全局平均池化作生成不同尺度分支的不同通道的描述符,
为第X分支的第C个通道的描述符,X和C分别代表尺度分支和通道,X∈{1,2,3,4},C∈{1,2,3,..,m},H、W分别代表特征图的高度、宽度,表示第X尺度分支第C个通道特征图的第i行第j列的元素值;34)对所有的尺度分支和通道下的描述符先做全连接,然后由Relu函数激活,激活值再做全连接,用Sigmoid函数进行激活,得到第X尺度分支第C个通道的注意力描述符全连接的权重和两个激活Relu、Sigmoid函数的参数在训练中迭代,迭代方式采用Adam梯度下降法;3...

【专利技术属性】
技术研发人员:李莹莹张硕孙全玲
申请(专利权)人:安徽建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1