当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于自监督学习的视频聚类方法技术

技术编号:33348035 阅读:13 留言:0更新日期:2022-05-08 09:47
本发明专利技术公开了一种基于自监督的视频聚类方法。该方法利用自监督的方式,学习得到视频在RGB和光流中的特征值,并对该特征值进行聚类。为了实现这一目标,将计算视频在RGB和光流中最近邻作为代理任务,实现无标签的视频特征提取。此外,对视频的每帧图片进行图片聚类,每个视频中出现次数最高的聚类标签作为视频的静态聚类标签。最后,将直接对视频提取得到的聚类特征作为视频的动态特征,结合静态聚类标签得到最终视频聚类结果。本发明专利技术可以在视频识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。的提高了视频对齐问题的准确率。的提高了视频对齐问题的准确率。

【技术实现步骤摘要】
一种基于自监督学习的视频聚类方法


[0001]本申请涉及计算机视觉领域,尤其涉及一种基于自监督学习的视频聚类方法。

技术介绍

[0002]聚类是一种广泛应用于机器学习、数据挖掘和统计分析等领域的技术。它的目的是将彼此相似的对象归为相同的集合,不同的对象归为不同的集合。视频聚类的目的是将同类视频归为同一类,不同类别的视频归为不同类。与传统视频分类方法不同,视频聚类方法无需考虑视频的真实标签。传统的聚类方法,如Kmeans和谱聚类,当它们应用于视频数据时,需要特定的特征提取方式,并且存在聚类边界消失等问题。对于高维的视频数据,传统方法无法保证特征信息得到有效利用,从而导致性能低下。
[0003]由于近年来深度神经网络的发展,基于深度学习的聚类方法得到提升。许多研究将深度神经网络与深度聚类方法的损失函数结合,以学习更适合聚类的视频特征表示。最近自监督特征学习在视频识别任务中表现优异。在提取视频帧的特征值的过程中,主要的挑战来源于经典特征提取方法更适用于特征分类,而不是聚类。因此,可以将深度聚类方法与自监督视频特征学习结合,以得到适合聚类的视频特征。

技术实现思路

[0004]专利技术目的:在本文中,我们没有对提取到的视频特征直接进行分类以完成识别任务,而是通过从RGB和光流不同视角上分别计算最近邻,拉近与其最近邻的特征值的距离,使视频特征具有聚类特性,利用聚类和重建损失函数实现自监督的视频聚类,从而完成自监督视频识别任务。本专利技术提供了一种基于自监督学习的视频聚类方法。
[0005]技术方案:一种基于自监督学习的视频聚类方法,其特征在于:包括以下步骤:
[0006]步骤一:对视频V
i
使用两种不同进行采样策略进行采样,得到包含全局信息的序列V
i_l
和包含局部信息的序列V
i_s

[0007]步骤二:对视频V
i
分别在RGB和光流上进行编码,得到特征值f1(V
i
),f2(V
i
);
[0008]步骤三:设RGB中特征值f1(V
i
)在f1(V)中的k个最近邻为f1(V
i1
),...,f1(V
ik
),拉近对应光流特征值的距离,即f2(V
i
)与f2(V
i1
),...,f2(V
ik
)的距离;
[0009]步骤四:重复步骤三,拉近由光流最近邻指导的RGB特征值的距离;
[0010]步骤五:由于同一视频不同片段属于同一类别,拉近f1(V
i
)与f1(V
i_s
)和f1(V
i_l
)的距离;
[0011]步骤六:对数据集V中的每个视频V
i
提取视频帧X
ij

[0012]步骤七:采用条件变分自编码器对所有的X进行图片聚类,得到视频静态标签;
[0013]步骤八:利用步骤三、四、五中得到的视频特征值,结合步骤七得到的视频静态标签进行视频聚类,得到视频聚类标签。
[0014]进一步的,步骤一中,序列V
i_l
采用的采样策略为将视频分割为等长的片段,并从每个片段中选取一帧组成新序列;序列V
i_s
采用的采样策略为随机选取一个起点,截取定长
(V
i_s
)和f1(V
i_l
)的距离;
[0034]步骤六:对数据集V中的每个视频V
i
提取视频帧X
ij

[0035]步骤七:采用条件变分自编码器对所有的X进行图片聚类,得到视频静态标签;
[0036]步骤八:利用步骤三、四、五中得到的视频特征值,结合步骤七得到的视频静态标签进行视频聚类,得到视频聚类标签,采用Kmeans对视频特征值进行聚类,并通过聚类损失函数更新特征值,所述聚类损失函数定义为最近邻的对数似然损失,加上交叉熵损失,以防止聚类退化。
[0037]在本实施例中,UCF101动作数据集由101类人物动作视频组成,共计13320个视频,涵盖常见的人类动作类别,包括弹钢琴、跳水、骑自行车、打棒球等。视频帧为320
×
240的彩色图像。
[0038]在训练时,设置Adam优化器的学习率为1
×
10
‑4。特征编码器损失为聚类损失和自监督视频特征两个损失的加权和,方差损失权重λ设为10
‑2。聚类损失中,交叉熵损失函数权重设为2。视频特征提取前将视频帧随机裁剪为224
×
224的彩色图像以进行S3D编码。模型训练300次,批大小设为128。
[0039]在UCF101数据集上比较了基于RGB和光流的最新自监督视频学习方法(CoCLR)和我们的方法。结果如图3所示,我们方法表现好于CoCLR。在视频聚类准确度方面,我们的方法比CoCLR+Kmeans高7.0%,聚类评价指标ARI高了0.0735。在UCF101子集UCF10上,我们的方法比CoCLR+Kmeans高18.9%,聚类评价指标ARI高了0.1803。主要原因是当前的自监督视频特征提取算法获得的视频特征,不具备适合分类的特性。这也意味着本专利技术提出的算法在实际应用中具有很大的优势。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的视频聚类方法,其特征在于:包括以下步骤:步骤一:对视频V
i
使用两种不同采样策略进行采样,得到包含全局信息的序列V
i_l
和包含局部信息的序列V
i_s
;步骤二:对视频V
i
分别在RGB和光流上进行编码,得到特征值f1(V
i
),f2(V
i
);步骤三:所述视频的RGB特征值f1(V
i
)在f1(V)中的k个最近邻为f1(V
i1
),...,f1(V
ik
),拉近对应光流特征值的距离,即f2(V
i
)与f2(V
i1
),...,f2(V
ik
)的距离;步骤四:重复步骤三,拉近由光流最近邻指导的RGB特征值的距离;步骤五:由于同一视频不同片段属于同一类别,拉近f1(V
i
)与f1(V
i_s
)和f1(V
i_l
)的距离;步骤六:对数据集V中的每个视频V
i
提取视频帧X
ij
;步骤七:采用条件变分自编码器对所有的X进行图片聚类,得到视频静态标签;步骤八:利用步骤三、四、五中得到的视频特征值,结合步骤七得到的视频静态标签进行视频聚类,得到视频聚类标签。2.根据权利要求1所述的基于自监督的视频聚类方法,其特征在于...

【专利技术属性】
技术研发人员:张宇米思娅王梓骅
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1