当前位置: 首页 > 专利查询>重庆大学专利>正文

基于混合监督多任务学习的域适应人群计数方法及存储介质技术

技术编号:37521684 阅读:14 留言:0更新日期:2023-05-12 15:44
本发明专利技术涉及计算机视觉领域和人群计数技术领域,具体涉及一种基于混合监督多任务学习的域适应人群计数方法及存储介质,方法包括:S1、根据输入图像生成标签密度图、标签人数和标签颠倒判断值;S2、建模;S3、对训练集进行训练,并将三种输出与对应的监督标签进行混合监督,使用三种损失函数计算误差,通过误差反向传播更新网络参数直至得到最优模型;S4、对于新数据集,需要对模型进行微调,生成标签人数和标签颠倒判断值作为监督标签;S5、将三种输出与两种监督标签通过损失函数计算误差,得到微调最优模型;S6、将测试集输入到最优模型中得到估计人数。本发明专利技术解决了现有技术不同数据分布差异与目标场景人群标注量少带来的计数准确性差的问题。准确性差的问题。准确性差的问题。

【技术实现步骤摘要】
基于混合监督多任务学习的域适应人群计数方法及存储介质


[0001]本专利技术涉及计算机视觉领域和人群计数
,具体涉及一种基于混合监督多任务学习的域适应人群计数方法及存储介质。

技术介绍

[0002]在过去几十年里,越来越多的研究团队将目标计数问题作为主要研究方向,在诸如人群、动物、细胞、交通工具等各种领域,开展基于图像或视频的目标数量统计研究。其中,人群计数是一个重要研究课题。特别是近年来国内外疫情发生使得人流聚集,人群计数可以对公共人群场景进行流量管控、异常检测提供关键技术支撑,助力我国公共安全保障事业。
[0003]基于深度学习的人群计数方法是目前的主流方法,现有技术CN112668532 A公开了一种基于多阶段混合注意网络的人群计数方法,该方法包括:S1、对输入图像进行高斯模糊生成标签密度图并进行数据增强;S2、建模多阶段混合注意网络并初始化权重参数;S3、数据增强后的训练集人群图像输入到S2的网络中进行训练,并将输出密度图与标签密度图作欧几里德损失计算误差,通过误差反向传播更新网络参数直到训练结束并保存最优模型;S4、将测试集人群图像输入到最优模型中输出密度图并进行积分得到估计人数。虽然一定程度上解决了人群计数不准确的问题。但是当前用于人群计数的数据集主要包括ShanghaiTech Part A,ShanghaiTech Part B,UCF

CC,UCF

QNRF等多种数据集,这些数据集之间存在较大的数据差异,通过一个数据集训练好的模型,在应用到另一个不同的数据集上时,人群计数准确性能显著下降,难以泛化,这严重影响了模型的实际应用能力,只能重新建立新的模型。其次,应用于现实场景时,目标场景通常没有太多的人群标注,无法生成标签密度图,从而导致人群计数模型的计数准确性差,因此对目标场景需要较多的研究成本去进行标注。

技术实现思路

[0004]本专利技术的目的之一在于提供一种基于混合监督多任务学习的域适应人群计数方法,解决现有技术在不同人群场景下的数据分布差异与目标场景人群标注量少给人群计数模型带来的计数准确性差的问题。
[0005]为了达到上述目的,提供了一种基于混合监督多任务学习的域适应人群计数方法,包括以下步骤:
[0006]S1:利用第一人群数据集的标注信息进行标签生成,其中包括标签密度图、标签人数和随机生成图像的颠倒图片的标签颠倒判断值,并对其中的训练集进行数据增强;
[0007]S2:建模混合监督多任务学习网络;
[0008]S3:初始化预训练模型及其它网络层参数;
[0009]S4:输入训练图像,输出估计密度图、估计颠倒判断值和估计人数,并计算估计密度图和标签密度图的损失、估计颠倒判断值与标签颠倒判断值的损失和估计人数与标签人
数的损失;
[0010]S5:选择优化算法最小化损失,并进行误差反向传播更新网络参数;
[0011]S6:每训练一次,就在第一人群数据集的测试集上通过评价指标验证模型计数性能;
[0012]S7:迭代S4、S5至设定次数,保存结果并获取适用于第一人群数据集的最优模型;
[0013]S8:利用第二人群数据集的标注信息进行标签生成,其中包括标签人数和随机生成图像的颠倒图片的标签颠倒判断值,并对其中的训练集进行数据增强;
[0014]S9:载入适用于第一人群数据集的最优模型;
[0015]S10:输入第二人群数据集的训练数据,输出估计密度图、估计人数与估计颠倒判断值,并计算估计密度图与估计人数所在分支产生的估计密度图的损失,计算颠倒判断值与标签值的损失和估计人数与真实人数的损失;
[0016]S11:选择优化算法最小化损失,并进行误差反向传播更新网络参数;
[0017]S12:每训练一次,就在第二人群数据集的测试集上通过评价指标验证模型计数性能;
[0018]S13:迭代S10、S11至设定次数,保存结果并获取适用于第二人群数据集的最优模型;
[0019]S14:将第二人群数据集的测试集图片输入S13的最优模型中,输出预测密度图并进行积分获得估计人数。
[0020]进一步,所述步骤S1中标签生成具体包括以下子步骤:
[0021]S101、利用高斯核函数对第一人群数据集的位置级注释进行高斯模糊,生成标签密度图,标签密度图的生成公式如下:
[0022][0023]其中,N表示图像中的总人头标注数量,假设x
i
处存在一个人头标注,将人头表示为δ(x

x
i
);对于给定的人头位置x
i
,定义为其与k个邻居的人头中心位置的距离,则平均距离定义为距离,则平均距离定义为表示高斯核标准差参数为σ
i
的高斯卷积,β为常数,将其设置为0.3;
[0024]S102、根据读取的数据集人头标注,得到标签人数,作为计数级标签;
[0025]S103、通过随机函数对训练集人群图像进行随机颠倒180度,取[0,1]或[1,0]作为颠倒判断值;
[0026]所述步骤S1中训练集进行数据增强具体包括以下子步骤:
[0027]S104、对训练集人群图像进行标准化和归一化,三通道均值和方差分别为(0.485,0.456,0.406)和(0.229,0.224,0.225);
[0028]S105、对训练人群图像进行固定尺寸的随机裁剪;
[0029]S106、对训练数据进行概率值为0.9的二值化以增加样本的多样性;
[0030]S107、对训练数据进行概率值为0.5的随机对比度以增加样本多样性。
[0031]进一步,所述步骤S2具体为:建模混合监督多任务学习网络,包括特征提取共享模块、颠倒图像判断辅助任务模块、估计密度图生成主任务模块和估计人数生成辅助任务模
块,具体包括以下子步骤:
[0032]S201、采用VGG16

BN模型的前10层作为特征提取共享模块,作为其余模块的共享层;
[0033]S202、颠倒图像判断辅助任务模块具体为,步骤S201提取了512通道数特征X0经过了全局平均池化层进行降维,将特征图(B
×
C
×
H
×
W)转化为得到二维数据(B
×
C),此后通过四层全连接层,神经元数量为512,128,64,2,前三层后接ReLU激活函数,最后通过Sigmoid激活层将二维数据映射到[0,1]的范围内,获得图像颠倒与不颠倒的估计颠倒判断值,采用颠倒判断值标签进行自监督学习;
[0034]S203、估计人数生成辅助任务模块具体为,将S201提取的512通道数特征X0输入到5层普通卷积层中,包括4个核大小为3X3,通道数为512、256、128、64的带BN的卷积层,以及一个核大小为1
×
1通道数为1的卷积层,激活函数均为ReLU激活函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于混合监督多任务学习的域适应人群计数方法,其特征在于,包括以下步骤:S1:利用第一人群数据集的标注信息进行标签生成,其中包括标签密度图、标签人数和随机生成图像的颠倒图片的标签颠倒判断值,并对其中的训练集进行数据增强;S2:建模混合监督多任务学习网络;S3:初始化预训练模型及其它网络层参数;S4:输入训练图像,输出估计密度图、估计颠倒判断值和估计人数,并计算估计密度图和标签密度图的损失、估计颠倒判断值与标签颠倒判断值的损失和估计人数与标签人数的损失;S5:选择优化算法最小化损失,并进行误差反向传播更新网络参数;S6:每训练一次,就在第一人群数据集的测试集上通过评价指标验证模型计数性能;S7:迭代S4、S5至设定次数,保存结果并获取适用于第一人群数据集的最优模型;S8:利用第二人群数据集的标注信息进行标签生成,其中包括标签人数和随机生成图像的颠倒图片的标签颠倒判断值,并对其中的训练集进行数据增强;S9:载入适用于第一人群数据集的最优模型;S10:输入第二人群数据集的训练数据,输出估计密度图、估计人数与估计颠倒判断值,并计算估计密度图与估计人数所在分支产生的估计密度图的损失,计算颠倒判断值与标签值的损失和估计人数与真实人数的损失;S11:选择优化算法最小化损失,并进行误差反向传播更新网络参数;S12:每训练一次,就在第二人群数据集的测试集上通过评价指标验证模型计数性能;S13:迭代S10、S11至设定次数,保存结果并获取适用于第二人群数据集的最优模型;S14:将第二人群数据集的测试集图片输入S13的最优模型中,输出预测密度图并进行积分获得估计人数。2.根据权利要求1所述的基于混合监督多任务学习的域适应人群计数方法,其特征在于:所述步骤S1中标签生成具体包括以下子步骤:S101、利用高斯核函数对第一人群数据集的位置级注释进行高斯模糊,生成标签密度图,标签密度图的生成公式如下:其中,N表示图像中的总人头标注数量,假设x
i
处存在一个人头标注,将人头表示为δ(x

x
i
);对于给定的人头位置x
i
,定义为其与k个邻居的人头中心位置的距离,则平均距离定义为平均距离定义为表示高斯核标准差参数为σ
i
的高斯卷积,β为常数,将其设置为0.3;S102、根据读取的数据集人头标注,得到标签人数,作为计数级标签;S103、通过随机函数对训练集人群图像进行随机颠倒180度,取[0,1]或[1,0]作为颠倒判断值;所述步骤S1中训练集进行数据增强具体包括以下子步骤:S104、对训练集人群图像进行标准化和归一化,三通道均值和方差分别为(0.485,
0.456,0.406)和(0.229,0.224,0.225);S105、对训练人群图像进行固定尺寸的随机裁剪;S106、对训练数据进行概率值为0.9的二值化以增加样本的多样性;S107、对训练数据进行概率值为0.5的随机对比度以增加样本多样性。3.根据权利要求2所述的基于混合监督多任务学习的域适应人群计数方法,其特征在于:所述步骤S2具体为:建模混合监督多任务学习网络,包括特征提取共享模块、颠倒图像判断辅助任务模块、估计密度图生成主任务模块和估计人数生成辅助任务模块,具体包括以下子步骤:S201、采用VGG16

BN模型的前10层作为特征提取共享模块,作为其余模块的共享层;S202、颠倒图像判断辅助任务模块具体为,步骤S201提取了512通道数特征X0经过了全局平均池化层进行降维,将特征图(B
×
C
×
H
×
W)转化为得到二维数据(B
×
C),此后通过四层全连接层,神经元数量为512,128,64,2,前三层后接ReLU激活函数,最后通过Sigmoid激活层将二维数据映射到[0,1]的范围内,获得图像颠倒与不颠倒的估计颠倒判断值,采用颠倒判断值标签进行自监督学习;S203、估计人数生成辅助任务模块具体为,将S201提取的512通道数特征X0输入到5层普通卷积层中,包括4个核大小为3X3,通道数为512、256、128、64的带BN的卷积层,以及一个核大小为1
×
1通道数为1的卷积层,激活函数均为ReLU激活函数,最终得到估计密度图G1,并进行积分得到估计人数,采用计数级标签进行弱监督学习;S204、估计密度图生成主任务模块具体为,将S21提取的512通道数特征X0输入到5层普通卷积层中,包括4个核大小为3X3...

【专利技术属性】
技术研发人员:桑军刘新悦田绍礼乔鑫吴志伟夏晓峰蔡斌冯潇
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1