当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于VGG网络的自动人群计数图像识别方法技术

技术编号:28296448 阅读:25 留言:0更新日期:2021-04-30 16:21
本发明专利技术公布了一种基于VGG网络的自动人群计数图像识别方法,利用VGG网络模型对图像进行嵌入式层归一化处理,基于VGG网络嵌入式层归一化进行人群计数图像识别,所述自动人群计数图像识别方法命名为VadaLN;包括:建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet;采用尺度重组网络模块SSM用于进行人群计数,使用散度马尔可夫随机场损失函数DivMRF对人群计数任务建模,并通过对抗式上下文损失函数ACL建立非对齐优化方法,实现密度图估计的非一致训练,优化VadaLNet的参数。本发明专利技术方法对输入的包含人群的图像进行识别和人群计数,过滤与计数任务无关的图像特征,即得到VadaLN值,实现基于VGG网络的自动人群计数图像识别。

【技术实现步骤摘要】
一种基于VGG网络的自动人群计数图像识别方法
本专利技术属于图像处理与识别
,涉及自动人群计数图像识别方法,尤其涉及一种基于VGG网络嵌入式层归一化进行人群计数的图像识别方法。
技术介绍
人群计数是一种以图像或视频为输入、对拍摄到的人群进行识别和自动人数统计的技术,可用于人流控制、安防、公共安全等多种应用领域。现有的基于深度学习的人群计数方法主要采用两种基本模型。一种是文献[1](YingyingZhang,DesenZhou,SiqinChen,ShenghuaGao,YiMa.Single-ImageCrowdCountingviaMulti-ColumnConvolutionalNeuralNetwork.CVPR2016.)中采用的基于图像处理方法进行图像中的人群计数,在人群实时监测和治安管理中有着广泛的应用。但由于数据量有限,现有方法大多没有考虑到特征域之间的差异,适用性差,因而难以推广应用。另一种是文献[2](YuhongLi,XiaofanZhang,DemingChen.CSRNet:DilatedConvolutionalNeuralNetworksforUnderstandingtheHighlyCongestedScenes.CVPR2018.)提出的基于神经网络的解决方案,主要是将数据集中的人群图像和人群标注进行端到端的深度学习,即给定一张人群图像,通过网络模型拟合出其对应的人群密度图,并将密度图中的所有像素值进行累加得到最终的计数结果。但是由于图像中存在颜色、光照、拍摄质量等问题,采用这种方法进行人群计数存在较大的误差,图像质量也会严重影响人群计数的结果。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于VGG网络的自动人群计数图像识别方法,建立基于VGG网络嵌入式层归一化进行人群计数的图像识别方法VadaLN和网络模型VadaLNet,VadaLN是一种采用预训练的“极深卷积神经网络”(VGG)嵌入式层归一化的方法(VGG-EmbeddedAdaptiveLayerNormalization,VadaLN),将图像的颜色、光照、拍摄质量等信息进行归一化来缓解人群计数的误差,解决目前在单图人群计数方法中,图像质量容易严重影响人群计数结果的问题。为了使图像中人群计数的结果不受图像质量、颜色和光照的影响,我们提出了基于VGG网络(文献[3]:KarenSimonyan,AndrewZisserman.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition.ICLR2015.)的嵌入式自适应层标准化方法VadaLN来过滤与计数任务无关的图像特征。本专利技术方法VadaLN包括:提出采用尺度重组网络模块(scale-shufflingmodule,SSM)作为有效部分用于人群计数任务;使用散度马尔可夫随机场损失函数(DivMRF)对计数任务建模;在密度图估计的非一致训练方法中,通过对抗式上下文损失函数(adversarialcontextualloss,ACL)建立一种非对齐优化方法。VadaLN在预先训练的VGG-16主干上实现,VadaLN方法不需要额外的学习参数。VadaLN方法将提出的尺度重组网络模块(SSM)合并在一起,以减轻上采样操作中的失真。本专利技术采用了一种新的归一化方法来减轻训练图像质量变化带来的负面影响。本专利技术提供的技术方案是:一种基于VGG网络嵌入式层归一化进行人群计数的图像识别方法VadaLN,利用VGG网络模型对图像进行嵌入式层归一化处理;包括:建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet;采用尺度重组网络模块SSM用于进行人群计数,使用散度马尔可夫随机场损失函数DivMRF对人群计数任务建模,并通过对抗式上下文损失函数ACL建立非对齐优化方法,实现密度图估计的非一致训练,优化VadaLNet的参数;具体实施时,在预先训练的VGG-16主干上实现VadaLN,不需要额外的学习参数,合并尺度重组网络模块SSM以减轻上采样操作中的失真;所述图像识别方法VadaLN对输入的包含人群的图像进行识别和人群计数,过滤与计数任务无关的图像特征,即得到VadaLN值;包括如下步骤:1)建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet,包括VGG网络的后端和新创建的尺度重组网络模块SSM,SSM包括像素重组模块;其中,VGG网络的模型包括多层卷积神经网络;建立用于进行上采样操作的尺度重组网络模块SSM,SSM的输入是VGG网络模型特征和低分辨率特征(LRfeat.),进行拼接后再作为输入传入像素重组(pixelshuffling)模块,并作为下一层的低分辨率特征LRfeat.重复以上操作多次,具体次数视应用场景而定。2)预训练基于VGG网络模型的嵌入式层归一化网络模型VadaLNet,采用提出散度马尔可夫随机场损失函数DivMRF和对抗式上下文损失函数ACL优化VadaLNet的参数;训练过程中,将图像分割成小块,并进行标准化处理,计算损失函数;具体实现包括如下过程:21)尺度归一化处理:将所有的图像数据归一化到统一的分辨率和长宽比;22)图像标准化处理:对图像的像素点的强度分别依照正态分布进行调整。正态分布均值和方差由图像的像素值得到。23)进行像素重组:图像在经过神经网络之后得到一个N层的张量,将张量的N层合并到同一层;部分层中的特征图与下采样得到的特征图通过尺度重组网络模块SSM的操作进行拼接,得到重组后的张量;24)将得到重组后的张量进行空洞卷积操作,得到新的特征图,进行像素叠加后计算最终的计数结果;25)损失函数的计算用逐像素的L1范数进行计算。其中使用ACL对网络模型进行对抗性训练。包括:251)散度马尔可夫随机场损失函数DivMRF的计算方法将图像(网络输出合成图像数据和参考图像数据)分割成小块,并作标准化处理,令其服从高斯分布。合成数据是训练网络时得到的网络的输出;参考数据是训练过程中计算损失函数用作参考的图像数据。PatchX={x0,0,x0,1,…,xM-1,N-1},PatchY={y0,0,y0,1,…,yM-1,N-1}.其中,Patchx,PatchY表示由输入图像X,Y分割的小块组成的集合,N表示标准化操作,计算过程利用均值μ和标准差σ。随后计算相对熵(又被称为Kullback-Leibler散度,简称KL散度),再利用KL散度计算损失函数:这里的x,y,X,Y和前文所用到的含义一致,Nk表示集合由PatchX,PatchY中标准化后的元素。252)对抗式上下文损失函数ACL的计算方法其中,CX指的是上下文相似度;φ指的是预训练的VGG网络;φ的上标表示使用的是哪一层的特征;D*ACL是ACL函数使用的对抗性损本文档来自技高网
...

【技术保护点】
1.一种基于VGG网络的自动人群计数图像识别方法,利用VGG网络模型对图像进行嵌入式层归一化处理,基于VGG网络嵌入式层归一化进行人群计数图像识别,所述自动人群计数图像识别方法命名为VadaLN;包括:建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet;采用尺度重组网络模块SSM用于进行人群计数,使用散度马尔可夫随机场损失函数DivMRF对人群计数任务建模,并通过对抗式上下文损失函数ACL建立非对齐优化方法,实现密度图估计的非一致训练,优化VadaLNet的参数;/n所述自动人群计数图像识别方法VadaLN对输入的包含人群的图像进行识别和人群计数,过滤与计数任务无关的图像特征,即得到VadaLN值;包括如下步骤:/n1)建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet,包括VGG网络的后端和新创建的尺度重组网络模块SSM,SSM包括像素重组模块;/n2)预训练基于VGG网络模型的嵌入式层归一化网络模型VadaLNet,采用提出散度马尔可夫随机场损失函数DivMRF和对抗式上下文损失函数ACL优化VadaLNet的参数;训练过程中,将图像分割成小块,并进行标准化处理,计算损失函数;具体实现包括如下过程:/n21)尺度归一化处理:将所有的图像数据归一化到统一的分辨率和长宽比;/n22)图像标准化处理:对图像的像素点的强度分别依照正态分布进行调整;/n23)进行像素重组:/n图像经过神经网络之后得到N层的张量,将张量的N层合并到同一层;层中的特征图与下采样得到的特征图通过尺度重组网络模块SSM进行拼接,得到重组后的张量;/n24)将重组后的张量进行空洞卷积操作,得到新的特征图,进行像素叠加后计算最终的计数结果;/n25)训练的损失函数采用逐像素的L1范数进行计算;包括:/n251)散度马尔可夫随机场损失函数DivMRF的计算;/n将图像分割成小块,并作标准化处理,使其服从高斯分布;/nPatch...

【技术特征摘要】
1.一种基于VGG网络的自动人群计数图像识别方法,利用VGG网络模型对图像进行嵌入式层归一化处理,基于VGG网络嵌入式层归一化进行人群计数图像识别,所述自动人群计数图像识别方法命名为VadaLN;包括:建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet;采用尺度重组网络模块SSM用于进行人群计数,使用散度马尔可夫随机场损失函数DivMRF对人群计数任务建模,并通过对抗式上下文损失函数ACL建立非对齐优化方法,实现密度图估计的非一致训练,优化VadaLNet的参数;
所述自动人群计数图像识别方法VadaLN对输入的包含人群的图像进行识别和人群计数,过滤与计数任务无关的图像特征,即得到VadaLN值;包括如下步骤:
1)建立基于VGG网络模型的嵌入式层归一化网络模型VadaLNet,包括VGG网络的后端和新创建的尺度重组网络模块SSM,SSM包括像素重组模块;
2)预训练基于VGG网络模型的嵌入式层归一化网络模型VadaLNet,采用提出散度马尔可夫随机场损失函数DivMRF和对抗式上下文损失函数ACL优化VadaLNet的参数;训练过程中,将图像分割成小块,并进行标准化处理,计算损失函数;具体实现包括如下过程:
21)尺度归一化处理:将所有的图像数据归一化到统一的分辨率和长宽比;
22)图像标准化处理:对图像的像素点的强度分别依照正态分布进行调整;
23)进行像素重组:
图像经过神经网络之后得到N层的张量,将张量的N层合并到同一层;层中的特征图与下采样得到的特征图通过尺度重组网络模块SSM进行拼接,得到重组后的张量;
24)将重组后的张量进行空洞卷积操作,得到新的特征图,进行像素叠加后计算最终的计数结果;
25)训练的损失函数采用逐像素的L1范数进行计算;包括:
251)散度马尔可夫随机场损失函数DivMRF的计算;
将图像分割成小块,并作标准化处理,使其服从高斯分布;
PatchX={x0,0,x0,1,…,xM-1,N-1},
PatchY={y0,0,y0,1,…,yM-1,N-1}.



其中,PatchX,PatchY表示由输入图像X,Y分割的小块组成的集合,N表示标准化操作,μ和σ分别为均值和标准差;
计算KL散度,再利用KL散度计算损失函数:






其中,Nk表示集合由PatchX,PatchY中标准化后的元素;
252)对抗式上下文损失函...

【专利技术属性】
技术研发人员:周秉锋郭德闻冯洁
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1