本发明专利技术公开了一种基于卷积神经网络的人群密度及数量估计方法,该方法首先采集场景图像,标注出场景图像中的人头位置作为训练图像集;其次根据训练图像及其人头标注生成用于训练的真实人群密度分布图;然后搭建卷积神经网络来回归人群密度分布图,计算损失函数Loss,通过损失函数利用随机梯度下降的方法进行网络权重的调整,模型收敛时训练结束;最后将待预测图像输入到训练好的卷积神经网络中,得到预测的人群密度分布图,在整张人群密度分布图上进行求和操作得到预测的总人数。相比于目前的其他方法,本方法在密集、遮挡、视角不一等复杂情况下,能够提高人群计数的准确度,有效增强了公共安全防控。
A method of population density and quantity estimation based on convolutional neural network
【技术实现步骤摘要】
一种基于卷积神经网络的人群密度及数量估计方法
本专利技术属于机器视觉应用领域,特别涉及一种基于卷积神经网络的人群密度及数量估计方法。
技术介绍
复杂场景下的人群计数是目前工业界和学界的一个研究热点和难点,其在实际生活中有重要应用价值。人群计数在视频监控、交通监测、公共安全、城市规划以及建设智能商超等方面有着广泛应用,如监控某个人群易聚集区域的人群数目,防止由于人群密度过大,导致人群失控发生踩踏等事件。由于密集、遮挡、视角不一等复杂情况,真实场景下的人群计数目前还是一个未解决的难题。作为一种常用的公共安全防控手段,通过机器视觉对人群密度进行定量测量,目前大多采用基于目标检测和基于回归的方法。以上两种人群计数方法,在面对密集、遮挡、视角不一等复杂现实场景,都存在一定的局限性,无法保证人群计数的准确性和可靠性。基于目标检测的方法,就是通过对图像上每个行人或人头进行定位与识别,再根据结果统计人数。优点在于可以做到准确的行人或者人头位置,但缺点在于对高密度的人群图像来说,其检测效果精确度较差。基于回归的方法,可以叫做人群数量估计,没有精确定位行人位置,而是对大概的人群数目给出个估计值,优点在于对高密度人群图像来说,其效果优于目标检测方法。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于卷积神经网络的人群密度及数量估计方法。本专利技术的目的是通过以下技术方案来实现的:一种基于卷积神经网络的人群密度及数量估计方法,该方法包括以下步骤:(1)通过摄像头采集场景图像,以像素点坐标标注出场景图像中的人头位置,作为训练图像集;(2)根据训练图像及其人头标注生成用于训练的真实人群密度分布图,公式如下:其中,(x,y)表示真实人群密度分布图的坐标,(xi,yi)表示人头坐标位置,N为图像中总人头数量。(3)搭建卷积神经网络来回归人群密度分布图,卷积神经网络的输入为步骤(1)的训练图像,卷积神经网络的输出为预测的人群密度分布图;网络结构:网络的前端为在ImageNet数据集上预训练的VGG16模型的前10层,其后串接多尺度空洞卷积模块用来捕捉图像多尺度特征,空洞卷积模块由三个并联的空洞卷积层组成,空洞率(dilaterate)分别为1、2、4;在空洞卷积特征模块之后接1x1的卷积核,将特征图通道数降为1,得到最后输出的单通道预测密度分布图。(4)根据网络输出的预测人群密度分布图与真实人群密度分布图计算损失函数Loss,通过损失函数利用随机梯度下降的方法进行网络权重的调整,损失函数不再下降时训练结束,保存网络参数。(5)将待预测图像输入到步骤(4)训练好的卷积神经网络中,得到预测的人群密度分布图,在整张人群密度分布图上进行求和操作得到预测的总人数。进一步地,所述步骤(2)中,g(σi)通过K近邻算法计算人头i与其最相近的K个人头的距离加权得到:其中,dik为人头i与人头k之间的距离,γk为加权系数。进一步地,所述步骤(3)中,将步骤(1)得到的训练图像进行图像增强后输入卷积神经网络,图像增强操作包括:随机翻转、随机添加椒盐噪声、随机改变明暗亮度等。进一步地,所述步骤(4)中,所述损失函数为预测密度图与真实密度图之差的L2范数,定义如下:其中,Θ为网络权重参数,M为训练过程中一个批量(batch)的图片数量,F(Xi;Θ)与Fi分别表示预测人群密度分布图与真实人群密度分布图,Xi为一个批量中的第i张训练图像。本专利技术的有益效果是:本专利技术将回归的方法和深度学习相结合,搭建卷积神经网络来回归人群密度分布图,从而获得人群密度图及人群数量,在提高回归精度方面有其自身优势。此外,在训练卷积神经网络过程中,通过损失函数利用随机梯度下降的方法指导网络权重的调整。本专利技术方法替代原有的回归和目标检测方法对复杂场景人群计数进行统计,不依赖于人头精确定位和识别,同时可以提升人群密度数量估计的准确性。附图说明图1是卷积神经网络训练流程图;图2是卷积神经网络框架图;图3中,(a)为密集人群图像,(b)为预测的人群密度分布图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步详细说明。本专利技术通过搭建和训练卷积神经网络模型来回归人群密度分布图,从而获得人群密度图及人群数量,其关键在于搭建和训练一个高效的神经网络。首先,生成真实的密度图用于神经网络训练。其次,训练神经网络需要设计合理的损失函数,通过损失函数利用随机梯度下降的方法指导网络权重的调整。接下来,确定网络的评价指标,以反映模型的整体的有效性和鲁棒性。如图1所示,本专利技术采用的技术方案的主要步骤如下:(1)通过摄像头采集场景图像,以像素点坐标标注出场景图像中的人头位置,作为训练图像集。(2)根据训练图像及其人头标注生成用于训练的真实人群密度分布图,公式如下:其中,(x,y)表示真实人群密度分布图的坐标,(xi,yi)表示人头坐标位置,N为图像中总人头数量,g(σi)为高斯函数的自适应标准差,通过K近邻算法计算人头i与其最相近的K个人头的距离加权得到:其中,dik为人头i与人头k之间的距离,γk为加权系数;通过上述几何自适应高斯核函数生成人群密度分布图,人群密度分布图代表人头位置区域及其邻域可能为人头的概率,每个人头位置区域及其邻域可能为人头的概率和为1,对人群密度分布图进行积分(求和)就是人群数目。(3)搭建卷积神经网络来回归人群密度分布图,卷积神经网络的输入为步骤(1)的训练图像,或者将步骤(1)得到的训练图像进行图像增强后再输入卷积神经网络,图像增强操作包括:随机翻转、随机添加椒盐噪声、随机改变明暗亮度等;卷积神经网络的输出为预测的人群密度分布图;网络结构:如图2所示,网络的前端为在ImageNet数据集上预训练的VGG16模型的前10层,其后串接多尺度空洞卷积模块用来捕捉图像多尺度特征,空洞卷积模块由三个并联的空洞卷积层组成,空洞率(dilaterate)分别为1、2、4;在空洞卷积特征模块之后接1x1的卷积核,将特征图通道数降为1,得到最后输出的单通道预测密度分布图。(4)根据网络输出的预测人群密度分布图与真实人群密度分布图计算损失函数Loss,通过损失函数利用随机梯度下降的方法进行网络权重的调整,损失函数不再下降时训练结束,保存模型参数;所述损失函数为预测密度图与真实密度图之差的L2范数,定义如下:其中,Θ为网络权重参数,M为训练过程中一个批量(batch)的图片数量,F(Xi;Θ)与F分别表示预测人群密度分布图与真实人群密度分布图,Xi为一个批量中的第i张训练图像。(5)将待预测图像输入到步骤(4)训练好的卷积神经网络中,得到预测的人群密度分布图,在整张人群密度分布图上进行求和操作得到预测的总人数。(6)评价模型:预测的密度图与真实密度图之间的相似度评判标准为MAE(平均绝对误差,反映模型的整体本文档来自技高网...
【技术保护点】
1.一种基于卷积神经网络的人群密度及数量估计方法,其特征在于,包括以下步骤:/n(1)通过摄像头采集场景图像,以像素点坐标标注出场景图像中的人头位置,作为训练图像集。/n(2)根据训练图像及其人头标注生成用于训练的真实人群密度分布图,公式如下:/n
【技术特征摘要】
1.一种基于卷积神经网络的人群密度及数量估计方法,其特征在于,包括以下步骤:
(1)通过摄像头采集场景图像,以像素点坐标标注出场景图像中的人头位置,作为训练图像集。
(2)根据训练图像及其人头标注生成用于训练的真实人群密度分布图,公式如下:
其中,(x,y)表示真实人群密度分布图的坐标,(xi,yi)表示人头坐标位置,N为图像中总人头数量。
(3)搭建卷积神经网络来回归人群密度分布图,卷积神经网络的输入为步骤(1)的训练图像,卷积神经网络的输出为预测的人群密度分布图;
网络结构:网络的前端为在ImageNet数据集上预训练的VGG16模型的前10层,其后串接多尺度空洞卷积模块用来捕捉图像多尺度特征,空洞卷积模块由三个并联的空洞卷积层组成,空洞率分别为1、2、4;在空洞卷积特征模块之后接1x1的卷积核,将特征图通道数降为1,得到最后输出的单通道预测密度分布图。
(4)根据网络输出的预测人群密度分布图与真实人群密度分布图计算损失函数Loss,通过损失函数利用随机梯度下降的方法进行网络权重的调整,损失函数不再下降时训练结束,保存网络参数。
(5)将待预测图像输入...
【专利技术属性】
技术研发人员:苏宏业,马龙华,张昆才,王朗,
申请(专利权)人:浙江中创天成科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。