一种基于无监督的人群计数方法技术

技术编号:38753367 阅读:11 留言:0更新日期:2023-09-10 09:37
本发明专利技术公开了一种基于无监督的人群计数方法,方法步骤如下,步骤A将输入图像划分为P

【技术实现步骤摘要】
一种基于无监督的人群计数方法


[0001]本专利技术涉及计算机领域,尤其涉及一种基于无监督的人群计数方法。

技术介绍

[0002]随着社会的发展和科技的进步,人群计数在智能监控、公共安全、商业分析等领域的应用越来越广泛。人群计数的准确性直接影响到监控系统的性能和效果。为了满足各种应用场景的需求,研究者们已经提出了许多不同的人群计数方法。人群计数方法主要可以分为两大类:检测方法和密度估计方法。检测方法通常基于滑动窗口、级联分类器等方法来检测图像中的每一个人头,然后计算总数。但这种方法在处理密集场景的人群计数时面临严重的挑战,因为人头之间的遮挡和形变问题会导致检测性能下降。因此,许多研究者将重心转向密度估计方法。
[0003]密度估计方法是通过学习人群密度图来进行人群计数。这类方法将计数问题转化为回归问题,从而避免了检测方法中遮挡和形变等问题。密度估计方法可以进一步分为两类:全局密度估计方法和局部密度估计方法。
[0004]全局密度估计方法通常使用卷积神经网络(CNN)等深度学习模型来进行端到端的学习。这类方法在训练过程中需要大量的标注数据,包括人群图像和对应的密度图。然而,在密集场景中,生成这些标注数据是非常困难和耗时的。此外,全局密度估计方法可能在面对不同场景和视角的图像时,性能表现不稳定。
[0005]局部密度估计方法试图通过将图像分割成若干个局部区域,然后分别计算每个区域的人数,最后进行汇总以获得整个图像的人数。这种方法可以一定程度上解决全局密度估计方法中遇到的问题。然而,局部密度估计方法仍然需要大量的标注数据,且在处理密集场景时依然存在挑战。
[0006]近年来,研究者们也尝试使用半监督学习和弱监督学习方法来解决人群计数问题。半监督学习方法通过利用大量未标注数据和少量标注数据来进行训练,而弱监督学习方法则利用其他形式的弱监督信息(如场景先验、图片中的其他信息等)来进行训练。这些方法在一定程度上减轻了标注数据的负担,但它们仍然需要一定数量的标注数据以保证模型性能。
[0007]在所有这些方法中,最相近的实现方案是基于自监督学习的方法。自监督学习方法试图通过设计特定的任务来学习有用的特征表示,而无需依赖于手动标注的数据。然而,现有的自监督学习方法在人群计数任务上的性能仍然有限,尤其是在处理密集场景时。

技术实现思路

[0008]本专利技术的目的就在于提出了一种解决了上述问题,减轻手动标注负担,提高计数准确性,具有更强的泛化能力的基于无监督的人群计数方法。
[0009]为了实现上述目的,本专利技术采用的技术方案是:一种基于无监督的人群计数方法,方法步骤如下,
[0010]步骤A,将输入图像划分为P
×
P的补丁;
[0011]步骤B,使用原始图像编码器Eo和文本编码器T0,将图像补丁和对应的文本提示作为输入,通过图像编码器Eo和文本编码器T0将其转化为特征向量,并计算两者的相似性,生成用于粗分类的相似性分数,通过相似性分数表示图像补丁和文本提示之间的匹配程度;
[0012]步骤C,使用基于排名的对比微调策略,通过比较不同图像和文本的匹配程度,进行图像编码器Ef的微调,得到微调后的图像编码器Ef;
[0013]步骤D,通过渐进式过滤策略进一步过滤补丁,将使用细粒度的文本提示输入到文本编码器T1中;
[0014]步骤E,使用微调后的图像编码器Ef和渐进式过滤后的文本编码器T2,以及与微调阶段相同的排名文本提示,生成用于精确计数的相似性分数;
[0015]步骤F,使用基于相似性分数的排名,确定每个图像补丁的最终计数。
[0016]作为优选,步骤B中,通过图像编码器Eo和文本编码器T0进行图像补丁和文本提示相似性计算公式如下:
[0017]S=Eo(I)*T0(T),
[0018]其中,S是相似性得分,Eo(I)表示使用图像编码器Eo对图像补丁I进行编码的结果,T0(T)表示使用文本编码器T0对文本提示T进行编码的结果,*表示向量内积运算。
[0019]作为优选,步骤B至步骤E的图像与文本匹配过程中,使用了图像编码器E和文本编码器T两个编码器,这两个编码器都是基于深度神经网络并将图像和文本映射到同一语义空间中,从而实现匹配。
[0020]作为优选,进行图像补丁与文本提示的相似性及匹配程度的计算方法为,
[0021]图像编码器E将输入的图像补丁转化为一个向量表示,这个向量表示可以捕获图像补丁中的语义信息,通过以下公式进行描述:
[0022]E(I_{i,j})=v_{i,j}
[0023]其中,I_{i,j}是输入的第i个图像补丁,E是图像编码器,v_{i,j}是图像补丁的向量表示;
[0024]所述文本编码器T将输入的文本提示转化为一个向量表示,这个向量表示可以捕获文本提示中的语义信息,通过以下公式进行描述:
[0025]T(C_k)=w_k
[0026]其中,C_k是输入的第k个文本提示,T是文本编码器,w_k是文本提示的向量表示;
[0027]计算图像和文本之间的相似性,相似性的计算是通过计算图像补丁的向量表示和文本提示的向量表示之间的点积来实现的,公式如下:
[0028]S_{i,j,k}=v_{i,j}*w_k
[0029]这里,S_{i,j,k}表示第i个图像补丁和第k个文本提示之间的相似性。
[0030]作为优选,步骤C中,在基于排名的对比微调策略中,定义了一个对比损失函数,通过优化损失函数,使模型更好地对齐图像和文本,将人群计数任务转化为一个图像

文本匹配任务,
[0031]对比损失函数的公式如下:
[0032]L_c=

log(exp(S_{i,j,k})/sum(exp(S_{i,j,k'})))
[0033]这里,S_{i,j,k}是正例,即图像补丁和对应的文本提示之间的相似性,S_{i,j,
k'}是负例,即图像补丁和非对应的文本提示之间的相似性。
[0034]作为优选,步骤C中,基于排名的对比微调策略是利用对比损失函数驱动图像编码器的微调过程,具体如下,
[0035]首先定义正样本是一个图像补丁和其对应的文本提示的组合,而负样本是一个图像补丁和一个非对应的文本提示的组合,图像编码器Eo和文本编码器T0的输出被用来计算正样本和负样本的相似性分数,对于正样本,它的相似性分数定义为:
[0036]S_{i,j,k}=v_{i,j}*w_k
[0037]这里,v_{i,j}是第i个图像补丁的向量表示,w_k是第k个文本提示的向量表示。S_{i,j,k}是正样本的相似性分数;
[0038]而对于负样本,它的相似性分数定义为:
[0039]S_{i,j,k'}=v_{i,j}*w_{k'}
[0040]这里,k'表示一个非对应的文本提示的索引,其他符号的含义与正样本相似性分数的定义相同;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督的人群计数方法,其特征在于:方法步骤如下,步骤A,将输入图像划分为P
×
P的补丁;步骤B,使用原始图像编码器Eo和文本编码器T0,将图像补丁和对应的文本提示作为输入,通过图像编码器Eo和文本编码器T0将其转化为特征向量,并计算两者的相似性,生成用于粗分类的相似性分数,通过相似性分数表示图像补丁和文本提示之间的匹配程度;步骤C,使用基于排名的对比微调策略,通过比较不同图像和文本的匹配程度,进行图像编码器Ef的微调,得到微调后的图像编码器Ef;步骤D,通过渐进式过滤策略进一步过滤补丁,将使用细粒度的文本提示输入到文本编码器T1中;步骤E,使用微调后的图像编码器Ef和渐进式过滤后的文本编码器T2,以及与微调阶段相同的排名文本提示,生成用于精确计数的相似性分数;步骤F,使用基于相似性分数的排名,确定每个图像补丁的最终计数。2.根据权利要求1所述一种基于无监督的人群计数方法,其特征在于:步骤B中,通过图像编码器Eo和文本编码器T0进行图像补丁和文本提示相似性计算公式如下:S=Eo(I)*T0(T),其中,S是相似性得分,Eo(I)表示使用图像编码器Eo对图像补丁I进行编码的结果,T0(T)表示使用文本编码器T0对文本提示T进行编码的结果,*表示向量内积运算。3.根据权利要求1所述一种基于无监督的人群计数方法,其特征在于:步骤B至步骤E的图像与文本匹配过程中,使用了图像编码器E和文本编码器T两个编码器,这两个编码器都是基于深度神经网络并将图像和文本映射到同一语义空间中,从而实现匹配。4.根据权利要求3所述一种基于无监督的人群计数方法,其特征在于:进行图像补丁与文本提示的相似性及匹配程度的计算方法为,图像编码器E将输入的图像补丁转化为一个向量表示,这个向量表示可以捕获图像补丁中的语义信息,通过以下公式进行描述:E(I_{i,j})=v_{i,j}其中,I_{i,j}是输入的第i个图像补丁,E是图像编码器,v_{i,j}是图像补丁的向量表示;所述文本编码器T将输入的文本提示转化为一个向量表示,这个向量表示可以捕获文本提示中的语义信息,通过以下公式进行描述:T(C_k)=w_k其中,C_k是输入的第k个文本提示,T是文本编码器,w_k是文本提示的向量表示;计算图像和文本之间的相似性,相似性的计算是通过计算图像补丁的向量表示和文本提示的向量表示之间的点积来实现的,公式如下:S_{i,j,k}=v_{i,j}*w_k这里,S_{i,j,k}表示第i个图像补丁和第k个文本提示之间的相似性。5.根据权利要求1所述一种基于无监督的人群计数方法,其特征在于:步骤C中,在基于排名的对比微调策略中,定义了一个对比损失函数,通过优化损失函数,使模型更好地对齐图像和文本,将人群计数任务转化为一个图像

文本匹配任务,对比损失函数的公式如下:
L_c=

log(exp(S_{i,j,k})/sum(exp(S_{i,j,k'})))这里,S_{i,j,k}是正例,即图像补丁和对应的文本提示之间的相似性,S_{i,j,k'}是负例,即图像补丁和非对应的文本提示之间的相似性。6.根据权利要求1所述一种基于无监督的人群计数方法,其特...

【专利技术属性】
技术研发人员:高伟君
申请(专利权)人:上海夏舜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1