一种基于自监督学习的视频聚类方法技术

技术编号：33348035 阅读：13 留言：0更新日期：2022-05-08 09:47

本发明专利技术公开了一种基于自监督的视频聚类方法。该方法利用自监督的方式，学习得到视频在RGB和光流中的特征值，并对该特征值进行聚类。为了实现这一目标，将计算视频在RGB和光流中最近邻作为代理任务，实现无标签的视频特征提取。此外，对视频的每帧图片进行图片聚类，每个视频中出现次数最高的聚类标签作为视频的静态聚类标签。最后，将直接对视频提取得到的聚类特征作为视频的动态特征，结合静态聚类标签得到最终视频聚类结果。本发明专利技术可以在视频识别的数据集上提取具有判别性的特征表示，有效的提高了视频对齐问题的准确率。的提高了视频对齐问题的准确率。的提高了视频对齐问题的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自监督学习的视频聚类方法

[0001]本申请涉及计算机视觉领域，尤其涉及一种基于自监督学习的视频聚类方法。

技术介绍

[0002]聚类是一种广泛应用于机器学习、数据挖掘和统计分析等领域的技术。它的目的是将彼此相似的对象归为相同的集合，不同的对象归为不同的集合。视频聚类的目的是将同类视频归为同一类，不同类别的视频归为不同类。与传统视频分类方法不同，视频聚类方法无需考虑视频的真实标签。传统的聚类方法，如Kmeans和谱聚类，当它们应用于视频数据时，需要特定的特征提取方式，并且存在聚类边界消失等问题。对于高维的视频数据，传统方法无法保证特征信息得到有效利用，从而导致性能低下。
[0003]由于近年来深度神经网络的发展，基于深度学习的聚类方法得到提升。许多研究将深度神经网络与深度聚类方法的损失函数结合，以学习更适合聚类的视频特征表示。最近自监督特征学习在视频识别任务中表现优异。在提取视频帧的特征值的过程中，主要的挑战来源于经典特征提取方法更适用于特征分类，而不是聚类。因此，可以将深度聚类方法与自监督视频特征学习结合，以得到适合聚类的视频特征。

技术实现思路

[0004]专利技术目的：在本文中，我们没有对提取到的视频特征直接进行分类以完成识别任务，而是通过从RGB和光流不同视角上分别计算最近邻，拉近与其最近邻的特征值的距离，使视频特征具有聚类特性，利用聚类和重建损失函数实现自监督的视频聚类，从而完成自监督视频识别任务。本专利技术提供了一种基于自监督学习的视频聚类方法。
[0005]技术方...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的视频聚类方法，其特征在于：包括以下步骤：步骤一：对视频V
i
使用两种不同采样策略进行采样，得到包含全局信息的序列V
i_l
和包含局部信息的序列V
i_s
；步骤二：对视频V
i
分别在RGB和光流上进行编码，得到特征值f1(V
i
)，f2(V
i
)；步骤三：所述视频的RGB特征值f1(V
i
)在f1(V)中的k个最近邻为f1(V
i1
)，...，f1(V
ik
)，拉近对应光流特征值的距离，即f2(V
i
)与f2(V
i1
)，...，f2(V
ik
)的距离；步骤四：重复步骤三，拉近由光流最近邻指导的RGB特征值的距离；步骤五：由于同一视频不同片段属于同一类别，拉近f1(V
i
)与f1(V
i_s
)和f1(V
i_l
)的距离；步骤六：对数据集V中的每个视频V
i
提取视频帧X
ij
；步骤七：采用条件变分自编码器对所有的X进行图片聚类，得到视频静态标签；步骤八：利用步骤三、四、五中得到的视频特征值，结合步骤七得到的视频静态标签进行视频聚类，得到视频聚类标签。2.根据权利要求1所述的基于自监督的视频聚类方法，其特征在于...

【专利技术属性】
技术研发人员：张宇，米思娅，王梓骅，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人