一种融合语义信息行人流量计数方法技术

技术编号:39273103 阅读:7 留言:0更新日期:2023-11-07 10:51
本发明专利技术提出一种融合语义信息行人流量计数方法,包括:采集行人流量的数据信息;对所述数据信息进行目标检测,并记录目标检测信息;基于所述目标检测信息,通过RMOT和ByteTrack进行目标跟踪;对目标跟踪结果进行阈值分组,并基于所述目标跟踪结果对目标在当前帧的位置进行预测,获取目标轨道;将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联,基于关联结果进行计数。本发明专利技术能在目标检测框获得低置信度时也对其进行轨迹匹配操作,去除掉低置信度检测框中真正的背景信息,并根据准确的跟踪结果进行计数工作。跟踪结果进行计数工作。跟踪结果进行计数工作。

【技术实现步骤摘要】
一种融合语义信息行人流量计数方法


[0001]本专利技术属于机器视觉、视频图像处理
,尤其涉及一种融合语义信息行人流量计数方法。

技术介绍

[0002]行人流量计数系统是一种用于统计行人数量和行人运动轨迹的系统,广泛应用于商场、公共交通、旅游景点等场所。其所需要的技术主要包含视频图像处理技术和深度学习技术。
[0003]视频图像处理技术:行人流量计数系统主要通过视频监控摄像头获取行人的图像信息,经过视频图像处理技术对图像进行预处理和分析,从而实现对行人的检测、跟踪和计数等功能。视觉算法中广泛应用的技术包括特征提取、目标检测、目标跟踪、运动估计等。
[0004]深度学习技术:为了提高行人检测和跟踪的准确率,行人流量计数系统使用了各种深度学习技术。常用的机器学习算法包括支持向量机、决策树、随机森林等;而深度学习算法则主要使用卷积神经网络(CNN)和循环神经网络(RNN)。这些技术不仅可以提高系统性能,还可以实现更多的功能,如姿态识别、性别识别、年龄识别等。
[0005]其中多目标跟踪技术是一个极其关键的环节,该技术根据目标检测后的结果,结合跟踪目标的特征相似度进行级联匹配,为每一个目标分配独有的ID并生成目标轨迹。目标跟踪技术的应用存在诸多难题和挑战。大多传统方法仅对在目标检测中的到高置信度的检测框分配ID,而将置信度低于阈值的检测框丢弃,这可能会导致真正的目标丢失和产生碎片化的轨迹。如何保留低置信度目标检测框恢复真实目标并过滤掉背景检测是当前急需解决的问题。
[0006]因此,本专利技术基于ByteTrack提出了结合所有检测框并融合语义信息进行目标跟踪的行人流量计数方法。

技术实现思路

[0007]为解决上述技术问题,本专利技术提出一种融合语义信息行人流量计数方法,在目标检测框获得低置信度时也对其进行轨迹匹配操作,去除掉低置信度检测框中真正的背景信息,并根据准确的跟踪结果进行计数工作。
[0008]为实现上述目的本专利技术提出了一种融合语义信息行人流量计数方法,包括:
[0009]采集行人流量的数据信息;
[0010]对所述数据信息进行目标检测,并记录目标检测信息;
[0011]基于所述目标检测信息,通过RMOT和ByteTrack进行目标跟踪;
[0012]对目标跟踪结果进行阈值分组,并基于所述目标跟踪结果预测对目标在当前帧的位置进行预测,获取目标轨道;
[0013]将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联,基于关联结果进行计数。
[0014]可选地,对所述数据信息进行目标检测包括:
[0015]对包含目标的图像数据集进行标注;其中,标注内容包括:目标类别、边框位置和目标尺寸;
[0016]基于标注后的数据集对YOLOv6模型进行训练;
[0017]基于训练后的所述YOLOv6模型,进行目标检测。
[0018]可选地,记录所述目标检测信息包括:记录目标位置信息、目标尺寸信息和边界框置信度;
[0019]记录所述目标位置信息包括:记录目标的像素坐标、边界框位置和中心点位置;
[0020]记录所述目标尺寸信息包括:记录目标的宽度和高度;
[0021]记录所述边界框置信度包括:为检测到的每个目标分配一个边界框,并为每个边界框分配一个置信度得分。
[0022]可选地,通过RMOT和ByteTrack进行目标跟踪包括:
[0023]利用RMOT进行目标跟踪,获取目标的位置和运动状态;在RMOT中使用早期融合模块来整合可变形编码器层之前的视觉和语言特征,给定第i层特征图使用1
×
1卷积将其通道数减少到d=128,并将其展平为二维张量W
i
和H
i
分别为第i层特征图的宽和高;并使用全连接层将语言特征投影到中,三个独立的全连接层将视觉和语言特征转换为Q、K和V:
[0024][0025][0026][0027]其中W是权重,P
V
和P
L
是视觉和语言特征的位置嵌入;
[0028]在K和V上做矩阵积,并使用生成的相似度矩阵对语言特征进行加权,即d为特征维数,然后将原始的视觉特征与语言特征相加,形成融合特征
[0029][0030]在融合两个模态后使用一堆可变形的编码器层来促进跨模态交互:
[0031][0032]其中编码为跨模态嵌入,便于后续解码器的引用预测;
[0033]设表示第t

1帧的解码器嵌入,利用自注意前馈网络将其进一步转化为第t帧的轨迹查询,即部分N解码器嵌入对应于空目标或退出的目标,因此过滤掉他们并仅保留N个真实嵌入,以根据其类分数生成跟踪查询令表示检测查询,该查询是为检测新出现目标而随机初始化;将这两种查询被连接在一起并输入到解码器中以学习目标表示D
t

[0034][0035]其中,输出嵌入次数为N
t
,包括跟踪对象和检测对象,得到目标的位置和运动状态;
[0036]将目标的位置和运动状态输入所述ByteTrack,使用ByteTrack算法对视频中的目标进行实时跟踪,以获得目标的位置和运动信息。
[0037]可选地,对目标跟踪结果进行阈值分组包括:
[0038]预设置信度阈值τ;
[0039]基于所述边界框置信度对所述数据信息中的每一帧所有的检测框进行划分,检测框的置信度大于等于阈值τ的,将检测框存入到高分检测框D
high
中,检测框的置信度小于阈值τ的,将检测框存入低分检测框D
low
中。
[0040]可选地,对目标在当前帧的位置进行预测包括:
[0041]初始化:在跟踪开始时,为目标检测获得的每个目标轨道T初始化卡尔曼滤波器;其中,所述卡尔曼滤波器包括状态向量、状态转移矩阵、观测矩阵、协方差矩阵;其中,所述状态向量表示目标在当前帧的状态,包括位置、速度等信息;所述状态转移矩阵表示目标状态的演化规律;所述观测矩阵表示目标在当前帧的观测值;所述协方差矩阵表示状态向量和观测值的误差协方差;
[0042]预测:所述卡尔曼滤波器根据当前帧的所述状态向量和所述状态转移矩阵预测目标在下一帧的状态,并估计预测状态的所述协方差矩阵;
[0043]更新:在下一帧中,会观测到目标的位置,观测值用所述观测矩阵表示;卡尔曼滤波器会根据所述观测矩阵和观测值对预测状态进行修正,从而得到状态估计;
[0044]循环:在下一帧中,利用更新后的所述状态向量和所述状态转移矩阵对目标在下一帧的状态进行预测,并重复上述步骤直到跟踪结束。
[0045]可选地,将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联包括:
[0046]在所述高分检测框D
high
和所有轨道T之间进行第一次关联,并将不匹配的轨迹保留;
[0047]在所述低分检测框D
low
和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合语义信息行人流量计数方法,其特征在于,包括:采集行人流量的数据信息;对所述数据信息进行目标检测,并记录目标检测信息;基于所述目标检测信息,通过RMOT和ByteTrack进行目标跟踪;对目标跟踪结果进行阈值分组,并基于所述目标跟踪结果对目标在当前帧的位置进行预测,获取目标轨道;将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联,基于关联结果进行计数。2.根据权利要求1所述的融合语义信息行人流量计数方法,其特征在于,对所述数据信息进行目标检测包括:对包含目标的图像数据集进行标注;其中,标注内容包括:目标类别、边框位置和目标尺寸;基于标注后的数据集对YOLOv6模型进行训练;基于训练后的所述YOLOv6模型,进行目标检测。3.根据权利要求1所述的融合语义信息行人流量计数方法,其特征在于,记录所述目标检测信息包括:记录目标位置信息、目标尺寸信息和边界框置信度;记录所述目标位置信息包括:记录目标的像素坐标、边界框位置和中心点位置;记录所述目标尺寸信息包括:记录目标的宽度和高度;记录所述边界框置信度包括:为检测到的每个目标分配一个边界框,并为每个边界框分配一个置信度得分。4.根据权利要求1所述的融合语义信息行人流量计数方法,其特征在于,通过RMOT和ByteTrack进行目标跟踪包括:利用RMOT进行目标跟踪,获取目标的位置和运动状态;在RMOT中使用早期融合模块来整合可变形编码器层之前的视觉和语言特征,给定第i层特征图使用1
×
1卷积将其通道数减少到d=128,并将其展平为二维张量W
i
和H
i
分别为第i层特征图的宽和高;并使用全连接层将语言特征投影到中,三个独立的全连接层将视觉和语言特征转换为Q、K和V,其表示如下:言特征转换为Q、K和V,其表示如下:言特征转换为Q、K和V,其表示如下:其中W是权重,P
V
和P
L
是视觉和语言特征的位置嵌入;在K和V上做矩阵积,并使用生成的相似度矩阵对语言特征进行加权,即d为特征维数,然后将原始的视觉特征与语言特征相加,形成融合特征为特征维数,然后将原始的视觉特征与语言特征相加,形成融合特征
在融合两个模态后使用一堆可变形的编码器层来促进跨模态交互:其中编码为跨模态嵌入,便于后续解码器的引用预测;设表示第t

1帧的解码器嵌入,利用自注意前馈网络将其进一步转化为第t帧的轨迹查询,即部分N解码器嵌入对应于空目标或退出的目标,因此过滤掉他们并仅保留N个真实嵌入,以根据其类分数生成跟踪查询令表示检测查询,该查询是为检测新出现目标而随机初始化;将这两种查询被连接在一起并输入到解码器中以学习目标表示D
t
:其中,输出嵌入次数为N
t
,包括跟踪对象和检测对象,得到目标的位置和运动状态;将目标的位置和运动状态输入所述ByteTrack,使用ByteTrack算法对视频中的目标进行实时跟踪,以获得目标的位置和运动信息。5.根据权利要求3所述的融合语义信息行人流量计数方...

【专利技术属性】
技术研发人员:刘宏哲孙吉武徐成徐歆恺代松银徐冰心潘卫国
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1