流形结构的视频时序分割方法技术

技术编号：37815580 阅读：6 留言：0更新日期：2023-06-09 09:45

本发明专利技术公开了流形结构的视频时序分割方法。该方法包括：根据视频片段的视频帧生成局部流形空间特征；根据所述视频片段的视频帧生成最大化近邻时序特征；根据流形空间特征以及最大化近邻时序特征，进行视频表征的自监督学习。从而实现用于视频时序分割方法，使得长视频中的流形信息以及时序信息在学习过程中被充分挖掘，提高视频时序分割任务的性能。提高视频时序分割任务的性能。提高视频时序分割任务的性能。

全部详细技术资料下载

【技术实现步骤摘要】
流形结构的视频时序分割方法

[0001]本专利技术涉及视频学习领域，尤其涉及流形结构的视频时序分割方法。

技术介绍

[0002]视频时序分割的目的是通过探索未经标注的长视频中存在的流形结构以及时序关系来将其划分成独立的视频片段，以提取其中的内容信息。
[0003]流形结构的视频时序分割方法，其基于自监督学习技术实现视频时序分割方法。然而目前的视频时序分割算法无法应对长视频记录的复杂场景，未能有效的提升视频时序分割性能。

技术实现思路

[0004]经研究发现，目前的长视频时序分割算法通常关注图像视觉信息以及视频的时序关系提升分割性能，往往忽略视频帧内部的流形结构与时序信息的内在联系。进而导致视频中的时序信息没有得到充分的重视与根据，但是在长视频场景中，视频中的语义信息与时序信息是高度相关的。
[0005]本专利技术提出一种用于长视频时序分割问题的自监督学习方法，使得普遍存在且十分重要的流形结构信息在学习过程中被充分根据，从而增加时序分割准确性。
[0006]本专利技术一些实施例提出一种基于流形结构的自监督学习方法，此处使用第一视角长视频的时序分割作为具体的实例解释本专利技术，但并不用于限定本专利技术。包括以下步骤：
[0007](1)按照一定的帧率对原视频采样，得到具有时序关系的视频帧集；
[0008](2)通过在ImageNet数据集上预训练的ResNet50神经网络，提取视频帧集的初始视觉特征；
[0009](3)根据视频的内容，构建基于目标帧的流形结...

【技术保护点】

【技术特征摘要】
1.流形结构的视频时序分割方法，其特征在于，包括：(1)按照一定的帧率对原视频采样，得到具有时序关系的视频帧集；目前的视频处理通常采用平均帧采样的方式，将视频处理成单帧图片，然后对视频帧集进行处理；针对不同的任务需求，采用合适的帧率对视频采样，有利于学习效率；(2)通过在ImageNet数据集上预训练的ResNet50神经网络，提取视频帧集的初始视觉特征；针对具有N帧的视频片段，经过预处理的ResNet50模型，可得到最初的语义特征X＝{x1,x2...,x
N
}；视频帧经过预处理的ResNet50模型后，可得到具有基础语义特征的视觉特征，在没有大规模数据预训练的前提下，这能够极大提高无监督任务的准确率；相比于随机特征来说，使用预处理模型得到的视觉特征更适合作为最初的语义特征；(3)根据视频的内容，构建基于目标帧的流形结构特征；在一些实施例中，包括：使用滑动窗口方式划分出多组视频段，计算组内帧的流形结构特征；给定最初的语义特征X，构建长度为L的滑动窗口；通过滑动窗口的移动，将特征集分割成个长度为L的子特征集W；其中，W＝W1,W2...,W
NL
；对于每个小片段W
i
，我们一种流形嵌入的方式，生成均匀流形的低维表示M
i
；该方式仅是本实例列举的方式，也可以其他流形方式进行嵌入；通过归一化x
i
周围的k个近邻的距离来表示x
i
与其近邻之间的地理距离；再对每一个x
i
构建单独的自定义距离，并合并为一致的全局结构，使用空间转换的方式将其表示为全局流形的模糊单形集；最后，通过找寻原视频帧特征集的拓扑结构来构建紧密匹配的低维向量，以此得到了该片段的流形特征M
i
；(4)基于LSTM网络构建动态时序网络包括：近邻域的构建，LSTM时序网络构建；其中：(4
‑
1)在一些实施例中，近邻域的构建包括：通过度量目标帧与邻域帧的近邻关系确定最大相似近邻矩阵，选取稳定的相邻视频帧作为动态时序网络的输入；在输入到后续网络前，需要构建最大相似近邻矩阵，以此来增加输入帧的有效性；给出近邻长度L，限制近邻数ner，则视频帧特征集X的近邻集可表示为近邻长度L，限制近邻数ner，则视频帧特征集X的近邻集可表示为为当前近邻范围内的x1与其余近邻的距离；距离公式如下计算：其中X
ik
为X
i
中第k维的特征值，d为X
i
的维度；使用由小到大的顺序排列近邻集pairwide_dist，取出前ne...

【专利技术属性】
技术研发人员：叶阳东，张明明，闫小强，孙中川，胡世哲，
申请(专利权)人：郑州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人