当前位置: 首页 > 专利查询>郑州大学专利>正文

流形结构的视频时序分割方法技术

技术编号:37815580 阅读:6 留言:0更新日期:2023-06-09 09:45
本发明专利技术公开了流形结构的视频时序分割方法。该方法包括:根据视频片段的视频帧生成局部流形空间特征;根据所述视频片段的视频帧生成最大化近邻时序特征;根据流形空间特征以及最大化近邻时序特征,进行视频表征的自监督学习。从而实现用于视频时序分割方法,使得长视频中的流形信息以及时序信息在学习过程中被充分挖掘,提高视频时序分割任务的性能。提高视频时序分割任务的性能。提高视频时序分割任务的性能。

【技术实现步骤摘要】
流形结构的视频时序分割方法


[0001]本专利技术涉及视频学习领域,尤其涉及流形结构的视频时序分割方法。

技术介绍

[0002]视频时序分割的目的是通过探索未经标注的长视频中存在的流形结构以及时序关系来将其划分成独立的视频片段,以提取其中的内容信息。
[0003]流形结构的视频时序分割方法,其基于自监督学习技术实现视频时序分割方法。然而目前的视频时序分割算法无法应对长视频记录的复杂场景,未能有效的提升视频时序分割性能。

技术实现思路

[0004]经研究发现,目前的长视频时序分割算法通常关注图像视觉信息以及视频的时序关系提升分割性能,往往忽略视频帧内部的流形结构与时序信息的内在联系。进而导致视频中的时序信息没有得到充分的重视与根据,但是在长视频场景中,视频中的语义信息与时序信息是高度相关的。
[0005]本专利技术提出一种用于长视频时序分割问题的自监督学习方法,使得普遍存在且十分重要的流形结构信息在学习过程中被充分根据,从而增加时序分割准确性。
[0006]本专利技术一些实施例提出一种基于流形结构的自监督学习方法,此处使用第一视角长视频的时序分割作为具体的实例解释本专利技术,但并不用于限定本专利技术。包括以下步骤:
[0007](1)按照一定的帧率对原视频采样,得到具有时序关系的视频帧集;
[0008](2)通过在ImageNet数据集上预训练的ResNet50神经网络,提取视频帧集的初始视觉特征;
[0009](3)根据视频的内容,构建基于目标帧的流形结构特征;在一些实施例中,包括:使用滑动窗口方式划分出多组视频段,计算组内帧的流形结构特征;
[0010](4)基于LSTM网络构建动态时序网络包括:近邻域的构建,LSTM时序网络构建;其中:
[0011](4

1)在一些实施例中,近邻域的构建包括:通过度量目标帧与邻域内帧的近邻关系确定最大相似近邻矩阵,选取稳定的相邻视频帧作为动态时序网络的输入;
[0012](4

2)在一些实施例中,LSTM时序网络的构建:依据最大相似近邻矩阵选出一定长度的具有时序关系的近邻域子集,输入到LSTM网络中,LSTM网络末端采用最大池化以及shortcut的方式,获得当前目标帧的时序特征;
[0013](5)通过目标帧的时序特征,输入到解码器中重构原始特征;
[0014](6)计算原始特征与重构特征之间的重构损失;
[0015](7)计算时序特征与流形结构特征之间的流形结构损失;
[0016](8)按顺序遍历整个视频帧的原始特征集,重复以下过程,直到模型收敛:
[0017](8

1)通过步骤(4)至步骤(7)计算重构损失以及流形结构损失;
[0018](8

2)最小化(8

1)中的损失,优化动态时序网络中的参数;
[0019](9)将整个视频帧的原始特征集输入到动态时序网络中,得到帧的低维高质量特征集;
[0020](10)使用聚类算法,得到视频帧对应的时序划分。
[0021]模型收敛之后,动态时序网络从当前视频段中建模了包含流形结构特征的时序关系。对于给定的视频段,动态时序网络能够输出每个帧的低维有效特征,使用聚类算法得到视频帧的无监督时序划分结果。
[0022]由上述训练过程可知,本专利技术使用了自监督学习机制实现了视频理解领域中无监督时序分割,可以使用基于梯度的方式对网络进行训练。
[0023]有益效果:与现有技术相比,本专利技术具有如下优点:
[0024]1、与现有主流自监督学习方案相比而言,融入流形结构信息,能够全面的挖掘长视频中的时序信息,从而摆脱数据依赖,实现视频数据的无监督时序分割。
[0025]2、为了获得局部流形结构信息,本专利技术采用了按域划分的方式,建模视频帧周围局部区域的流形结构,减少远距离视频帧带来的语义干扰。
[0026]3、为了获得有效的时序特征,本专利技术构建了基于LSTM网络结构的动态时序网络。该网络通过构建基于目标帧的最大相似近邻矩阵来度量获取近邻时域内的近邻信息,保留更深层次的语义特征。
附图说明
[0027]下面将结合附图对本专利技术的技术方案进行详细描述,可以更加清楚地理解本专利技术。
[0028]图1为本专利技术的流程示意图。
[0029]图2为本专利技术的模型图。
[0030]图3为对比实验图。
[0031]图4为不同训练阶段,本专利技术输出的时序特征可视化展示。
[0032]图5为实际效果图。
[0033]具体实施过程
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0035]本专利技术提出一种用于长视频时序分割问题的自监督学习方法,使得普遍存在且十分重要的流形结构信息在学习过程中被充分根据,从而增加时序分割准确性。
[0036]图1展示了本专利技术一些实施例的基于流形结构的自监督视频时序分割方法的流程示意图。
[0037]如图1所示,该实施例的方法包括:步骤1

10。
[0038]在步骤1中,按照一定的帧率对原视频采样,得到具有时序关系的视频帧集;
[0039]目前的视频处理通常采用平均帧采样的方式,将视频处理成单帧图片,然后对视频帧集进行处理;针对不同的任务需求,采用合适的帧率对视频采样,有利于学习效率;
[0040]在步骤2中,通过在ImageNet数据集上预训练的ResNet50神经网络,提取视频帧集的初始视觉特征;
[0041]针对具有N帧的视频片段,经过预处理的ResNet50模型,可得到最初的语义特征X={x1,x2...,x
N
};视频帧经过预处理的ResNet50模型后,可得到具有基础语义特征的视觉特征,在没有大规模数据预训练的前提下,这能够极大提高无监督任务的准确率;相比于随机特征来说,使用预处理模型得到的视觉特征更适合作为最初的语义特征;
[0042]在步骤3中,根据视频的内容,构建基于目标帧的流形结构特征;在一些实施例中,包括:使用滑动窗口方式划分出多组视频段,计算组内帧的流形结构特征;
[0043]给定最初的语义特征X,构建长度为L的滑动窗口;通过滑动窗口的移动,将特征集分割成个长度为L的子特征集W;其中,W=W1,W2...,W
NL
;对于每个小片段W
i
,我们一种流形嵌入的方式,生成均匀流形的低维表示M
i
;该方式仅是本实例列举的方式,也可以其他流形方式进行嵌入;
[0044]通过归一化x
i
周围的k个近邻的距离来表示x
i
与其近邻之间的地理距离;再对每一个x
i
构建单独的自定义距离,并合并为一致的全局结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.流形结构的视频时序分割方法,其特征在于,包括:(1)按照一定的帧率对原视频采样,得到具有时序关系的视频帧集;目前的视频处理通常采用平均帧采样的方式,将视频处理成单帧图片,然后对视频帧集进行处理;针对不同的任务需求,采用合适的帧率对视频采样,有利于学习效率;(2)通过在ImageNet数据集上预训练的ResNet50神经网络,提取视频帧集的初始视觉特征;针对具有N帧的视频片段,经过预处理的ResNet50模型,可得到最初的语义特征X={x1,x2...,x
N
};视频帧经过预处理的ResNet50模型后,可得到具有基础语义特征的视觉特征,在没有大规模数据预训练的前提下,这能够极大提高无监督任务的准确率;相比于随机特征来说,使用预处理模型得到的视觉特征更适合作为最初的语义特征;(3)根据视频的内容,构建基于目标帧的流形结构特征;在一些实施例中,包括:使用滑动窗口方式划分出多组视频段,计算组内帧的流形结构特征;给定最初的语义特征X,构建长度为L的滑动窗口;通过滑动窗口的移动,将特征集分割成个长度为L的子特征集W;其中,W=W1,W2...,W
NL
;对于每个小片段W
i
,我们一种流形嵌入的方式,生成均匀流形的低维表示M
i
;该方式仅是本实例列举的方式,也可以其他流形方式进行嵌入;通过归一化x
i
周围的k个近邻的距离来表示x
i
与其近邻之间的地理距离;再对每一个x
i
构建单独的自定义距离,并合并为一致的全局结构,使用空间转换的方式将其表示为全局流形的模糊单形集;最后,通过找寻原视频帧特征集的拓扑结构来构建紧密匹配的低维向量,以此得到了该片段的流形特征M
i
;(4)基于LSTM网络构建动态时序网络包括:近邻域的构建,LSTM时序网络构建;其中:(4

1)在一些实施例中,近邻域的构建包括:通过度量目标帧与邻域帧的近邻关系确定最大相似近邻矩阵,选取稳定的相邻视频帧作为动态时序网络的输入;在输入到后续网络前,需要构建最大相似近邻矩阵,以此来增加输入帧的有效性;给出近邻长度L,限制近邻数ner,则视频帧特征集X的近邻集可表示为近邻长度L,限制近邻数ner,则视频帧特征集X的近邻集可表示为为当前近邻范围内的x1与其余近邻的距离;距离公式如下计算:其中X
ik
为X
i
中第k维的特征值,d为X
i
的维度;使用由小到大的顺序排列近邻集pairwide_dist,取出前ne...

【专利技术属性】
技术研发人员:叶阳东张明明闫小强孙中川胡世哲
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1