【技术实现步骤摘要】
本专利技术属于图像分析,具体涉及一种基于场景理解的多专家投票式人群计数方法。
技术介绍
1、随着计算机视觉技术的快速发展,人群计数在公共安全监控、智能交通和商业分析等领域中发挥着越来越重要的作用。现有的人群计数方法主要集中在对整体人群进行计数。然而,当需要进行细粒度的属性特征计数(如不同位置、姿态、外观属性等的区分)时,这些方法的表现通常受限。细粒度计数不仅要求模型识别目标的类别,还需要在复杂场景中区分个体属性,当前方法在这些方面仍然存在一定的困难。
2、为了提升在复杂场景下对细粒度属性特征的人群计数效果,近年来基于多模态信息融合和多专家系统的技术逐渐引起关注。多模态信息融合(如视觉与文本信息的结合)有助于模型提取出更丰富的细粒度特征,而多专家系统则能将不同的属性特征作为独立的处理单元,使模型在处理不同类型的信息时更加精细和准确。但是,目前缺少一种能够将两者很好的进行结合的计数方法。
技术实现思路
1、根据以上现有技术中的不足,本专利技术的目的在于提供一种基于场景理解的多专家投
...【技术保护点】
1.一种基于场景理解的多专家投票式人群计数方法,其特征在于包括以下步骤:
2.根据权利要求1所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的S1中,视觉特征的提取过程为:
3.根据权利要求2所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的S1中,基于包含分词器Tokenizer和预训练的深度学习模型BERT的文本编码器,文本特征的提取过程为:
4.根据权利要求3所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的S2中,引入线性变换,将文本特征投影到与视觉特征相同的嵌入空间中进
...【技术特征摘要】
1.一种基于场景理解的多专家投票式人群计数方法,其特征在于包括以下步骤:
2.根据权利要求1所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s1中,视觉特征的提取过程为:
3.根据权利要求2所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s1中,基于包含分词器tokenizer和预训练的深度学习模型bert的文本编码器,文本特征的提取过程为:
4.根据权利要求3所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s2中,引入线性变换,将文本特征投影到与视觉特征相同的嵌入空间中进行对齐,表示为:
5.根据权利要求4所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s3中,为了使局部主体专家聚焦于前景人头区域,实现对局部无关信息的过滤,通过区域掩码对背景区域进行屏蔽,表示为:
6.根据权利要求4所述的一种基于场景理解的多专家投票式人群计数方法,其特征在于,所述的s4中,引入金字塔池化单元,对进行不同尺度的信息整合,表示为:
7.根据权...
【专利技术属性】
技术研发人员:高明亮,李启磊,陈金永,翟文哲,邹国锋,邢雪宁,刘丽娜,潘金凤,
申请(专利权)人:山东理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。