一种基于时间序列特征的伪标签生成视频显著性检测方法技术

技术编号:39801550 阅读:10 留言:0更新日期:2023-12-22 02:32
本发明专利技术提出了一种基于时间序列特征的伪标签生成视频显著性检测方法,步骤为:将数据集中的视频序列输入到

【技术实现步骤摘要】
一种基于时间序列特征的伪标签生成视频显著性检测方法


[0001]本专利技术涉及计算机视觉的
,尤其涉及一种基于时间序列特征的伪标签生成视频显著性检测方法


技术介绍

[0002]视频显著性检测是计算机视觉领域的一个重要研究方向,旨在自动地识别视频中最具有吸引力的区域,为视频分析

编辑和压缩等应用提供基础性支持

视频显著性检测已经广泛应用于视频广告

视频监控

视频摄像等领域

视频显著性检测是针对视频中最具吸引力区域
(
如运动物体

场景变化

光照变化等
)
进行识别和分析的技术,可以帮助计算机自动识别视频中最具吸引力的区域,从而提高视频分析

编辑

压缩等应用的效率和准确性

以下是一些比较重要的视频显著性检测技术:
(1)
基于深度学习的视频显著性检测:深度学习技术已经成为视频显著性检测的主流方法

其中,基于卷积神经网络
(CNN)
的方法是目前最常用的方法之一

通过使用
CNN
等深度学习模型,可以自动地学习视频中最具有吸引力的区域的特征,并进行显著性检测
。(2)
基于时空注意力机制的视频显著性检测:时空注意力机制是一种可以对视频中物体的运动和场景变化进行建模的方法,该方法通过引入时空注意力机制,来提高视频显著性检测的准确性和鲁棒性
。(3)
基于图像分割的视频显著性检测:该方法通过使用图像分割算法对视频帧进行分割,然后使用分割结果来进行显著性检测

这种方法可以提高视频显著性检测的准确度,并且对于一些复杂的场景也有较好的适应性

总之,视频显著性检测是一个涉及多个领域的交叉学科,其中涉及的技术和方法也非常多样化

随着技术的不断发展,视频显著性检测的研究和应用将会越来越深入和广泛

[0003]传统的视频显著性检测方法主要基于手工特征提取和浅层模型,如颜色

纹理和边缘等特征,这些方法往往对噪声和光照变化敏感,且在处理复杂场景和动态背景时表现较差

针对传统方法的不足,研究人员提出了基于深度学习的视频显著性检测方法

其中,以
SOD(Salient Object Detection)
任务为代表的方法,使用卷积神经网络
(CNN)
提取图像特征,并通过后续处理得到视频显著性检测结果

然而,这些方法仍然存在一些问题

首先,它们对标注数据的需求量很大,而手动标注数据非常耗时且成本较高

此外,标注数据往往存在噪声和主观性问题,影响了模型的泛化性能

最近,基于循环神经网络
(RNN)
的方法,如长短时记忆网络
(LSTM)
等,能够对时间序列信息进行建模,有效地提高视频显著性检测的准确性和稳定性


技术实现思路

[0004]针对现有的视频显著性检测方法的检测精度不高

稳定性差的技术问题,本专利技术提出一种基于时间序列特征的伪标签生成视频显著性检测方法,在现有的基于
LSTM
的方法上,通过
LSTM
模型可以有效利用视频序列中的时间序列信息生成伪标签,结合伪标签的引入,能够充分利用视频中的多种特征,能够提高视频显著性检测的准确性和稳定性

[0005]为了达到上述目的,本专利技术的技术方案是这样实现的:一种基于时间序列特征的
伪标签生成视频显著性检测方法,其步骤如下:
[0006]S1
:将数据集中的视频序列输入到
LSTM
模型中进行编码和解码,提取视频序列的时间序列特征;
[0007]S2
:基于时间序列特征的伪标签生成算法根据视频序列中相邻帧之间的相似度生成伪标签,将生成的伪标签和真实标签放在一起作为一个训练数据集训练
LSTM
模型;
[0008]S3
:利用置信度感知显著性提取方案根据样本的置信度和训练进度对带有噪声标签的样本进行评分,选择置信度高的样本作为新的伪标签;
[0009]S4
:采用一种评分机制来引导
LSTM
模型逐步从简单到困难地提取显著性知识;
[0010]S5
:用新的伪标签和数据集中每一帧标注的图像组成新训练数据集,利用新训练数据集反复训练
LSTM
模型,得到显著性检测模型;
[0011]S6
:将待检测的新训练数据集输入到显著性检测模型中,得到新训练数据集中每一帧图像的显著性检测结果,得到待检测视频序列的显著图

[0012]优选地,将每个视频序列中的每一帧图像输入到一个预训练的卷积神经网络中,卷积神经网络将每一帧图像转换为具有固定维度的特征向量,得到每一帧图像的特征表示;将每一帧图像特征表示输入到
LSTM
模型中,提取时间序列特征

[0013]优选地,所述数据集为
DAVIS
数据集,
DAVIS
数据集的每个视频序列提供了像素级别的注释,包括前景目标分割和边界框注释;在训练时,使用随机裁剪

水平翻转和调整亮度的数据增强技术来处理
DAVIS
数据集的视频序列;
[0014]所述卷积神经网络是经典的
ResNet
网络,使用
DAVIS
数据集进行预训练,使用预训练的权重初始化
ResNet
网络,通过反向传播和梯度下降算法微调
ResNet
网络参数

[0015]优选地,所述
LSTM
模型包括依次连接的输入层

编码器

解码器和输出层,输入层接收输入的视频序列,编码器对视频序列进行编码和提取时间序列特征,解码器使用全连接层将编码器的时间序列特征映射到所需的输出空间,输出层输出时间序列的特征向量

[0016]优选地,所述编码器包括依次连接的多个
LSTM
层和
Bi

LSTM
层,
LSTM
层通过学习时间依赖关系捕捉视频序列的短期依赖关系;
Bi

LSTM
层则通过同时处理正向和反向的视频序列,捕捉更全面的上下文信息

[0017]优选地,所述编码器包括依次连接的第一
LSTM


第二
L本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于时间序列特征的伪标签生成视频显著性检测方法,其特征在于,其步骤如下:
S1
:将数据集中的视频序列输入到
LSTM
模型中进行编码和解码,提取视频序列的时间序列特征;
S2
:基于时间序列特征的伪标签生成算法根据视频序列中相邻帧之间的相似度生成伪标签,将生成的伪标签和真实标签放在一起作为一个训练数据集训练
LSTM
模型;
S3
:利用置信度感知显著性提取方案根据样本的置信度和训练进度对带有噪声标签的样本进行评分,选择置信度高的样本训练
LSTM
模型;
S4
:采用一种评分机制来引导
LSTM
模型逐步从简单到困难地提取显著性知识;
S5
:用伪标签和数据集中每一帧标注的图像组成新训练数据集,利用新训练数据集反复训练
LSTM
模型,得到显著性检测模型;
S6
:将待检测的新训练数据集输入到显著性检测模型中,得到新训练数据集中每一帧图像的显著性检测结果,得到待检测视频序列的显著图
。2.
根据权利要求1所述的基于时间序列特征的伪标签生成视频显著性检测方法,其特征在于,将每个视频序列中的每一帧图像输入到一个预训练的卷积神经网络中,卷积神经网络将每一帧图像转换为具有固定维度的特征向量,得到每一帧图像的特征表示;将每一帧图像特征表示输入到
LSTM
模型中,提取时间序列特征
。3.
根据权利要求2所述的基于时间序列特征的伪标签生成视频显著性检测方法,其特征在于,所述数据集为
DAVIS
数据集,
DAVIS
数据集的每个视频序列提供了像素级别的注释,包括前景目标分割和边界框注释;在训练时,使用随机裁剪

水平翻转和调整亮度的数据增强技术来处理
DAVIS
数据集的视频序列;所述卷积神经网络是经典的
ResNet
网络,使用
DAVIS
数据集进行预训练,使用预训练的权重初始化
ResNet
网络,通过反向传播和梯度下降算法微调
ResNet
网络参数
。4.
根据权利要求1‑3中任意一项所述的基于时间序列特征的伪标签生成视频显著性检测方法,其特征在于,所述
LSTM
模型包括依次连接的输入层

编码器

解码器和输出层,输入层接收输入的视频序列,编码器对视频序列进行编码和提取时间序列特征,解码器使用全连接层将编码器的时间序列特征映射到所需的输出空间,输出层输出时间序列的特征向量
。5.
根据权利要求4所述的基于时间序列特征的伪标签生成视频显著性检测方法,其特征在于,所述编码器包括依次连接的多个
LSTM
层和
Bi

LSTM
层,
LSTM
层通过学习时间依赖关系捕捉视频序列的短期依赖关系;
Bi

LSTM
层则通过同时处理正向和反向的视频序列,捕捉更全面的上下文信息
。6.
根据权利要求5所述的基于时间序列特征的伪标签生成视频显著性检测方法,其特征在于,所述编码器包括依次连接的第一
LSTM


第二
LSTM

、Bi

LSTM


第三
LSTM
层和第四
LSTM
层,第一
LSTM
层接收输入的视频序列并学习其时间依赖关系,捕捉视频序列的短期依赖关系,并传递给下一层;第二
LSTM
层进一步学习输入的视频序列的...

【专利技术属性】
技术研发人员:徐涛史肖丽蔡磊柴豪杰赵未硕蒋靓峣
申请(专利权)人:河南科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1