一种基于未来特征自监督学习的流式感知方法技术

技术编号:39801478 阅读:7 留言:0更新日期:2023-12-22 02:32
本发明专利技术公开的一种基于未来特征自监督学习的流式感知方法,属于计算机视觉领域

【技术实现步骤摘要】
一种基于未来特征自监督学习的流式感知方法


[0001]本专利技术涉及一种应用于目标检测的一种基于未来特征自监督学习的流式感知方法,属于计算机视觉领域


技术介绍

[0002]在快速发展的计算机视觉领域中,精确而及时的目标检测要求至关重要,尤其是在自动驾驶和无人机监控等实际应用中

传统的目标检测方法,无论是基于图像的方法或基于视频的方法,主要以离线模式运行

它们无法及时跟上实际环境中连续快速的变化,从而损害它们的有效性

数据获取和处理之间的延迟使得环境条件得以演变,突显对能够预测未来状态的预测方法的迫切需求

为解决这个挑战,建立一种新的范式,称为流式感知,在当前的研究中逐渐得到广泛应用

[0003]流式感知通过处理连续的数据流来产生即时的预测

与仅关注静态图像中目标检测的图像目标检测和整合来自连续帧的历史数据的视频目标检测不同,流式感知利用当前和历史帧数据来预测目标的未来位置

考虑到目标检测任务的约束,延迟成为一个核心挑战,影响检测结果的准确性和可靠性

数据采集和处理之间的延迟允许环境条件演变,突显流式感知的重要性,它可以预测和迅速响应环境变化,有效解决延迟问题

[0004]流式感知已经引发许多创新方法的提出

早期的解决方案之一是
Streamer
,它是一种元检测器
。Streamer<br/>通过采用决策理论调度

异步跟踪和基于卡尔曼滤波器的预测等独特策略脱颖而出

然而,
Streamer
的一个重要局限性是它依赖于预定义的调度

为解决
Streamer
的调度问题,引入自适应的
Streamer。
通过使用深度强化学习,自适应的
Streamer
实现更准确的预测

尽管改进性能,但自适应的
Streamer
的训练过程复杂,计算要求高

为解决自适应的
Streamer
的问题,一些新方法采用端到端的策略

具体来说,
StreamYOLO
通过利用连续帧中包含的时间信息来预测未来状态,从而减少复杂的训练过程

类似地,
LongShortNet
在其独特的双路径网络中将长期的时间运动和短期的空间语义相结合,便于流式感知

[0005]然而,现有的端到端方法存在特征对齐的挑战,即当前帧和过去帧的输入数据与下一帧的监督数据之间存在时间上的不匹配

当目标从一帧到下一帧发生显着移动时,这种不匹配通常导致不准确的预测

在动态环境中,目标的快速变化很常见,这使得这种不准确性更加明显,因此需要更适应性的方法


技术实现思路

[0006]为解决当前流感知算法主要依赖于坐标信息而无法提供精确预测的问题,本专利技术的目的是提供一种基于未来特征自监督学习的流式感知方法,利用未来帧的外观特征来增强流式感知的性能,显著地提高
FFSSL
模型对时间序列数据中连续性和时序变化的捕获能力,确保预测的连续性和准确性;此外,本专利技术结合
StreamYOLO

YOLOX
的特点,实现对视频序列中每帧数据的深度解析,得到更丰富

更多样的特征表示,通过对历史

当前和未来帧
进行综合分析,保证模型在每一步都能充分地利用每帧的信息,并通过自监督的学习策略,有效地整合目标在不同时间点的特征,进而实现对目标的高精度

高稳定性预测

[0007]本专利技术的目的是通过下述技术方案实现的:
[0008]本专利技术公开的基于未来特征自监督学习的流式感知方法,基于未来特征自监督学习的流式感知
FFSSL
模型实现

通过构建输入数据,该输入由历史帧

当前帧和下一帧数据组成,为
FFSSL
模型提供时空连续性的信息

应用
StreamYOLO
子模型进行初步处理,该结构包括
YOLOX
子模型

特征融合模块与特定的损失函数,从而捕捉视频流中的动态特性

根据
StreamYOLO
子模型和
YOLOX
子模型的输出作为自监督模块的输入,这两个输入是
StreamYOLO
子模型的特征融合输出以及下一帧通过
YOLOX
子模型产生的特征输出

为在这一阶段中进行精确的特征对齐,采用目标坐标位置标签对两个输入进行特征提取,并根据输入图像与
YOLOX
子模型及
StreamYOLO
子模型特征融合模块的输出特征进行对比,得出一个缩放比例来获得新的真值标签

样本对构建步骤系统地构建锚点和正负样本对,确保
FFSSL
模型能够从数据中学习到更为鲁棒的特征

使用
StreamYOLO
子模型的特征融合输出,根据真值标签提取出含有目标区域的锚点;采用
YOLOX
子模型处理下一帧的特征,并利用缩放后的真值标签提取出带有目标特征的正样本;通过利用与缩放后真值标签相同大小的背景区域,构建负样本

引入特征一致性损失,确保从连续帧中提取的特征具有良好的一致性

通过使用锚点

正负样本来构建该损失,确保视频流中的连续帧之间的特征对齐和一致

通过目标检测技术

特征融合策略和自监督学习模块,提高流感知的准确性,并为视频流处理等实际应用场景提供有力的技术支持

[0009]本专利技术公开的一种基于未来特征自监督学习的流式感知方法,包括如下步骤:
[0010]步骤1:输入检测目标的
RGB
数据,由历史帧

当前帧和下一帧数据组成,
RGB
数据不仅为目标预测提供时空连续性的信息,有助于流式感知模型准确捕捉目标在连续帧中的外观特征

[0011]步骤2:构建未来特征自监督学习的流式感知模型,所述流式感知模型简称为
FFSSL
模型

所述
FFSSL
模型包括
StreamYOLO
子模型
、YOLOX
子模型

自监督模块

所述
StreamYOLO
子模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于未来特征自监督学习的流式感知方法,其特征在于:包括如下步骤,步骤1:输入检测目标的
RGB
数据,由历史帧

当前帧和下一帧数据组成,
RGB
数据不仅为目标预测提供时空连续性的信息,有助于流式感知模型准确捕捉目标在连续帧中的外观特征;步骤2:构建未来特征自监督学习的流式感知模型,所述流式感知模型简称为
FFSSL
模型;所述
FFSSL
模型包括
StreamYOLO
子模型
、YOLOX
子模型

自监督模块;所述
StreamYOLO
子模型用于处理连续帧数据,预测目标的未来状态;所述
StreamYOLO
主要由
YOLOX
子模型

特征融合和损失函数组成;所述自监督模块用于利用未标记的
RGB
数据进行模型训练,利用连续帧中目标的一致性和连续性,强化流式感知模型的学习能力,而不依赖大量标记数据;特征融合用于融合连续帧中历史帧和当前帧的特征,增强
FFSSL
模型对未来状态的预测能力;损失函数用于减小预测和实际未来状态之间的差异;当
RGB
数据进入模型时,
YOLOX
子模块从中提取目标特征;目标特征随后输入到
StreamYOLO
子模型中,特征融合将多帧的特征融合在一起;融合后的特征被送入自监督模块,以增强
FFSSL
模型的预测能力;
FFSSL
模型通过损失函数进行优化,确保预测的准确性,使
FFSSL
模型能够综合利用多帧数据;步骤3:输入步骤1获取的检测目标的
RGB
数据;根据视频帧序列中的当前帧
F
t
,将其定义为中心帧,并进一步确定其前后相邻帧
F
t
‑1和
F
t+1
作为历史帧和下一帧;在构建完训练样本数据组后,历史帧
F
t
‑1和当前帧
F
t
的信息经过特征融合模块进行处理,下一帧
F
t+1
通过
YOLOX
进行特征提取;将历史帧
F
t
‑1、
当前帧
F
t
和下一帧
F
t+1
三个帧作为
FFSSL
模型的输入;步骤4:基于
StreamYOLO
子模型对
RGB
数据进行处理;利用步骤3中生成的训练样本数据组进行训练,并通过
StreamYOLO
结构得到特征融合的输出;步骤5:利用
StreamYOLO
子模型的输出计算分类损失

回归损失和目标度损失,所述损失函数用来进行
t+1
帧标签监督训练;步骤6:
StreamYOLO
的特征融合输出以及通过
YOLOX
得到的下一帧的特征输出被送入自监督模块;自监督模块利用目标坐标位置标签,对两个输入进行特征提取;两个输入都使用目标坐标位置标签,并根据输入图片与
YOLOX
子模型及
StreamYOLO
子模型特征融合模块输出的特征对比,得到一个缩放比例,进而获取新的真值标签;自监督模块对输入图像与
YOLOX

StreamYOLO
特征融合模块的输出特征进行比对,并计算出一个新的真值标签;步骤7:利用已提取的特征和真值标签,执行样本对构建,即构建锚点和正负样本对:使用
StreamYOLO
子模型特征融合模块输出的特征,经过真值标签提取出带有目标区域的锚点;使用
YOLOX
子模型提取的下一帧的特征,经过缩放后的真值标签提取出带有目标特征的正样本;使用与缩放后的真值标签区域相同大小的背景区域构建负样本;通过构建样本对确保
FFSSL
模型能够从数据中捕获更鲁棒的特征;使用步骤4中
StreamYOLO
子模型的融合特征,得到特征图
f
t

1:t
;根据目标的真值标签,计算
F
t
与融合特征之间的缩放比例,根据该比例计算出特征图中目标的精确位置,获取到目标的锚点区域;步骤8:通过锚点

正负样本构建特征一致性损失;为确保从连续帧中提取的特征具有良好的一致性,使用步骤4中的锚点

正负样本来构建特征一致性损失
FCL
;步骤9:为确保
FFSSL
模型的预测性能,结合特征一致性损失
FCL
与监督损失构建综合损失函数通过结合目标检测技术

特征融合策略和自监督学习模块,提高流感知的准确性;
步骤
10
:在
FFSSL
模型的推理阶段不再使用自监督模块,但在训练阶段通过自监督...

【专利技术属性】
技术研发人员:黄华王同博
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1