【技术实现步骤摘要】
一种融合语义信息行人流量计数方法
[0001]本专利技术属于机器视觉、视频图像处理
,尤其涉及一种融合语义信息行人流量计数方法。
技术介绍
[0002]行人流量计数系统是一种用于统计行人数量和行人运动轨迹的系统,广泛应用于商场、公共交通、旅游景点等场所。其所需要的技术主要包含视频图像处理技术和深度学习技术。
[0003]视频图像处理技术:行人流量计数系统主要通过视频监控摄像头获取行人的图像信息,经过视频图像处理技术对图像进行预处理和分析,从而实现对行人的检测、跟踪和计数等功能。视觉算法中广泛应用的技术包括特征提取、目标检测、目标跟踪、运动估计等。
[0004]深度学习技术:为了提高行人检测和跟踪的准确率,行人流量计数系统使用了各种深度学习技术。常用的机器学习算法包括支持向量机、决策树、随机森林等;而深度学习算法则主要使用卷积神经网络(CNN)和循环神经网络(RNN)。这些技术不仅可以提高系统性能,还可以实现更多的功能,如姿态识别、性别识别、年龄识别等。
[0005]其中多目标跟踪技术是一个极其关键的环节,该技术根据目标检测后的结果,结合跟踪目标的特征相似度进行级联匹配,为每一个目标分配独有的ID并生成目标轨迹。目标跟踪技术的应用存在诸多难题和挑战。大多传统方法仅对在目标检测中的到高置信度的检测框分配ID,而将置信度低于阈值的检测框丢弃,这可能会导致真正的目标丢失和产生碎片化的轨迹。如何保留低置信度目标检测框恢复真实目标并过滤掉背景检测是当前急需解决的问题。
[0006]因此,本专 ...
【技术保护点】
【技术特征摘要】
1.一种融合语义信息行人流量计数方法,其特征在于,包括:采集行人流量的数据信息;对所述数据信息进行目标检测,并记录目标检测信息;基于所述目标检测信息,通过RMOT和ByteTrack进行目标跟踪;对目标跟踪结果进行阈值分组,并基于所述目标跟踪结果对目标在当前帧的位置进行预测,获取目标轨道;将分组后的所述目标跟踪结果与所述目标轨道进行轨迹关联,基于关联结果进行计数。2.根据权利要求1所述的融合语义信息行人流量计数方法,其特征在于,对所述数据信息进行目标检测包括:对包含目标的图像数据集进行标注;其中,标注内容包括:目标类别、边框位置和目标尺寸;基于标注后的数据集对YOLOv6模型进行训练;基于训练后的所述YOLOv6模型,进行目标检测。3.根据权利要求1所述的融合语义信息行人流量计数方法,其特征在于,记录所述目标检测信息包括:记录目标位置信息、目标尺寸信息和边界框置信度;记录所述目标位置信息包括:记录目标的像素坐标、边界框位置和中心点位置;记录所述目标尺寸信息包括:记录目标的宽度和高度;记录所述边界框置信度包括:为检测到的每个目标分配一个边界框,并为每个边界框分配一个置信度得分。4.根据权利要求1所述的融合语义信息行人流量计数方法,其特征在于,通过RMOT和ByteTrack进行目标跟踪包括:利用RMOT进行目标跟踪,获取目标的位置和运动状态;在RMOT中使用早期融合模块来整合可变形编码器层之前的视觉和语言特征,给定第i层特征图使用1
×
1卷积将其通道数减少到d=128,并将其展平为二维张量W
i
和H
i
分别为第i层特征图的宽和高;并使用全连接层将语言特征投影到中,三个独立的全连接层将视觉和语言特征转换为Q、K和V,其表示如下:言特征转换为Q、K和V,其表示如下:言特征转换为Q、K和V,其表示如下:其中W是权重,P
V
和P
L
是视觉和语言特征的位置嵌入;在K和V上做矩阵积,并使用生成的相似度矩阵对语言特征进行加权,即d为特征维数,然后将原始的视觉特征与语言特征相加,形成融合特征为特征维数,然后将原始的视觉特征与语言特征相加,形成融合特征
在融合两个模态后使用一堆可变形的编码器层来促进跨模态交互:其中编码为跨模态嵌入,便于后续解码器的引用预测;设表示第t
‑
1帧的解码器嵌入,利用自注意前馈网络将其进一步转化为第t帧的轨迹查询,即部分N解码器嵌入对应于空目标或退出的目标,因此过滤掉他们并仅保留N个真实嵌入,以根据其类分数生成跟踪查询令表示检测查询,该查询是为检测新出现目标而随机初始化;将这两种查询被连接在一起并输入到解码器中以学习目标表示D
t
:其中,输出嵌入次数为N
t
,包括跟踪对象和检测对象,得到目标的位置和运动状态;将目标的位置和运动状态输入所述ByteTrack,使用ByteTrack算法对视频中的目标进行实时跟踪,以获得目标的位置和运动信息。5.根据权利要求3所述的融合语义信息行人流量计数方...
【专利技术属性】
技术研发人员:刘宏哲,孙吉武,徐成,徐歆恺,代松银,徐冰心,潘卫国,
申请(专利权)人:北京联合大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。