一种基于场景理解的多专家投票式人群计数方法技术

技术编号:43979477 阅读:16 留言:0更新日期:2025-01-10 20:04
本发明专利技术属于图像分析技术领域,具体涉及一种基于场景理解的多专家投票式人群计数方法,步骤包括利用包括图像编码器、文本编码器和特征增强器的骨干网络,从输入图像中提取视觉特征,并从文本提示中提取文本特征;将文本特征投影到与视觉特征相同的嵌入空间中进行对齐;构建用于局部人群目标检测的局部主体专家、用于理解场景的整体布局的全局上下文专家、用于建模人群之间的空间关系的空间关系专家、用于处理场景中目标的外观和属性信息的属性特征专家;采用知识蒸馏策略,细粒度训练各个专家;获取各个专家的输出,通过解码器输出最终的计数结果。本发明专利技术能够利用多专家系统的投票机制和知识蒸馏策略来优化复杂场景下的细粒度人群计数性能。

【技术实现步骤摘要】

本专利技术属于图像分析,具体涉及一种基于场景理解的多专家投票式人群计数方法


技术介绍

1、随着计算机视觉技术的快速发展,人群计数在公共安全监控、智能交通和商业分析等领域中发挥着越来越重要的作用。现有的人群计数方法主要集中在对整体人群进行计数。然而,当需要进行细粒度的属性特征计数(如不同位置、姿态、外观属性等的区分)时,这些方法的表现通常受限。细粒度计数不仅要求模型识别目标的类别,还需要在复杂场景中区分个体属性,当前方法在这些方面仍然存在一定的困难。

2、为了提升在复杂场景下对细粒度属性特征的人群计数效果,近年来基于多模态信息融合和多专家系统的技术逐渐引起关注。多模态信息融合(如视觉与文本信息的结合)有助于模型提取出更丰富的细粒度特征,而多专家系统则能将不同的属性特征作为独立的处理单元,使模型在处理不同类型的信息时更加精细和准确。但是,目前缺少一种能够将两者很好的进行结合的计数方法。


技术实现思路

1、根据以上现有技术中的不足,本专利技术的目的在于提供一种基于场景理解的多专家投票式人群计数方法,能本文档来自技高网...

【技术保护点】

1.一种基于场景理解的多专家投票式人群计数方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的S1中,视觉特征的提取过程为:

3.根据权利要求2所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的S1中,基于包含分词器Tokenizer和预训练的深度学习模型BERT的文本编码器,文本特征的提取过程为:

4.根据权利要求3所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的S2中,引入线性变换,将文本特征投影到与视觉特征相同的嵌入空间中进行对齐,表示为:...

【技术特征摘要】

1.一种基于场景理解的多专家投票式人群计数方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s1中,视觉特征的提取过程为:

3.根据权利要求2所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s1中,基于包含分词器tokenizer和预训练的深度学习模型bert的文本编码器,文本特征的提取过程为:

4.根据权利要求3所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s2中,引入线性变换,将文本特征投影到与视觉特征相同的嵌入空间中进行对齐,表示为:

5.根据权利要求4所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s3中,为了使局部主体专家聚焦于前景人头区域,实现对局部无关信息的过滤,通过区域掩码对背景区域进行屏蔽,表示为:

6.根据权利要求4所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s4中,引入金字塔池化单元,对进行不同尺度的信息整合,表示为:

7.根据权...

【专利技术属性】
技术研发人员:高明亮李启磊陈金永翟文哲邹国锋邢雪宁刘丽娜潘金凤
申请(专利权)人:山东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1