当前位置: 首页 > 专利查询>西北大学专利>正文

基于VSS的视频段序列预测模型建立、序列预测方法及系统技术方案

技术编号:28711010 阅读:27 留言:0更新日期:2021-06-06 00:08
本发明专利技术属于计算机视觉技术领域,公开了一种基于VSS的视频段序列预测模型建立、序列预测方法及系统。在视频段序列预测方面,采用3D CNNs(C3D、R3D和R(2+1)D)提取视频时空特征。在第一次迭代时,将所有视频的VSS值初始化为0,将所有视频随机输入网络。在接下来的迭代中,根据视频段序列预测的结果计算每个视频的VSS值。然后根据视频的VSS值对视频进行排序并分组。将VSS均值最高的视频组先输入网络,进行数个时间段的模型训练,直到训练完所有的训练数据,然后重新对视频进行排序。这个过程持续几次迭代,直到模型收敛。本发明专利技术建立好的模型具有较好的时空特征提取能力。有较好的时空特征提取能力。有较好的时空特征提取能力。

【技术实现步骤摘要】
基于VSS的视频段序列预测模型建立、序列预测方法及系统


[0001]本专利技术属于计算机视觉
,具体涉及一种基于VSS的视频段序列预测模型建立、序列预测方法及系统。

技术介绍

[0002]视频作为一种数据源具有非常丰富的视觉和语义信息,而视频特征学习是计算机视觉中的一项基本任务。目前,人们提出了多种从视频中提取视觉特征的方法,并将其应用到相关任务中,如动作识别、视频检索、视频生成等。对于这些任务,最关键的问题是如何使网络从大规模视频数据集中学习到丰富的时空特征。3D CNN提出后,从视频中学习时空特征的研究有了突破,许多相关任务的性能得到了提升。
[0003]在现有的时空特征学习方法中,包括基于3D CNN和基于LSTM的方法,这两种方法都是将视频随机输入网络进行模型训练。然而,视频中的帧/视频段序列对于物体的动作或运动有不同级别的的方向性。如图1所示,在图1(a)“Baby Crawl”和图1(b)“Walking With Dog”的视频中,模型比较容易识别正确的视频段序列,因为婴儿、人和狗相对于场景有明显的方向性运动。而如图2所示,在图2(a)“Playing Guitar”和图2(b)“Playing Yoyo”的视频中,识别正确的视频段序列比较困难,因为这些动作的可重复性比较高,背景是静态的,没有任何动态变化,导致视频段序列不清晰。因此,视频具有不同的帧/视频段序列显著性水平,图1中的视频具有比图2更高级别的帧/视频段序列显著性。此外,视频段序列预测模型在学习这些视频的时空特征时会遇到不同程度的困难。
[0004]在自监督时空特征学习方法中,帧/视频段序列预测任务是获得具有较好时空特征提取能力的预训练模型的常用预训练任务。这些预训练的模型可以进一步用于改进下游任务(如视频检索、动作识别等)的性能。因为预测低级别的帧/视频段显著性的视频序列信息是比较困难的,所以帧/视频段序列预测模型对不同级别的帧/视频段显著性敏感。基于帧/视频段序列预测的初始模型是根据模型参数而随机初始化,其提取时空特征的能力有限。因此,低成熟度模型可以从帧/视频段序列显著性水平较高的视频中有效地学习时空特征,但对帧/视频段序列显著性水平较低的视频可能不能很好地学习时空特征。因此,如果忽略视频序列显著性,低成熟度模型对帧/视频段序列显著性水平较低的视频的训练效果较差。此外,在提取时空特征时,非渐进特征学习方法在深度网络模型泛化性能方面存在局限性。

技术实现思路

[0005]本专利技术的目的在于提供一种基于VSS的视频段序列预测模型建立、序列预测方法及系统,用以解决现有技术中的对于显著性水平较低的视频提取时空特征较差的问题。
[0006]为了实现上述任务,本专利技术采用以下技术方案:
[0007]基于VSS的视频段序列预测模型建立方法,包括如下步骤:
[0008]步骤1:获取视频集合,对视频集合中的每个视频截取相同的帧数获得视频段集
合,对视频片段集合中的每个视频段进行采样,获得每个视频段的多个采样片段,对每个视频段的多个采样片段的时序关系进行随机打乱,获得打乱时序的每个视频段;
[0009]步骤2:建立3D CNN模型,将所有打乱时序的视频段作为训练集,对3DCNN模型进行自监督训练,至模型收敛后训练结束,将训练好的3D CNN模型作为视频段序列预测模型;
[0010]所述自监督训练包括多轮迭代过程,其中,第1轮迭代过程包括如下子步骤:
[0011]步骤a1:将所有打乱时序的视频段输入3D CNN模型,计算每个视频段的VSS值,对所有视频段按照VSS值降序排列;
[0012]步骤a2:将降序排列的所有视频段分成多个视频组,计算每个视频组的平均VSS值并按照平均VSS值将多个视频组进行降序排列,执行步骤b1;
[0013]第t+1轮迭代过程包括如下子步骤,其中,t≥1:
[0014]步骤b1:按照第t轮迭代后得到的视频组的降序排列,依次将每个视频组所包含的多个视频段输入3D CNN模型;
[0015]步骤b2:更新每个视频段的VSS值,根据更新后的VSS值更新所有视频段的降序排列,根据更新后的所有视频段的降序排列计算每个视频组的更新平均VSS值,获得更新后的视频组的降序排列,令t=t+1返回执行步骤b1。
[0016]进一步的,采用式Ⅰ计算每个视频段的VSS值
[0017][0018]其中,表示第t+1轮迭代时视频段的VSS值,t=1时α和β是权重参数,α和β的取值范围均为大于0,N
COP
表示该视频段的所有可能的时序关系的总类别数,N
COP
为大于1的正整数,Y
iCOP
表示在groundtruth中视频段属于总类别的第i类的概率,P
iCOP
表示预测结果中视频段属于总类别的第i类的概率,Y
iCOP
和P
iCOP
的取值范围均为[0,1],i∈[1,N
COP
]。
[0019]一种基于VSS的视频段序列预测方法,包括如下步骤:
[0020]步骤一:获取待排序的多个视频段;
[0021]步骤二:将待排序的多个视频段输入如任一种基于VSS的视频段序列预测模型建立方法建立的视频段序列预测模型中,获得待排序的多个视频段的最佳序列。
[0022]一种基于VSS的视频段序列预测系统,该系统包括处理器和用于存储能够在处理器上运行的多个功能模块的存储器,所述功能模块包括:数据采集和预处理模块、模型训练模块和预测模块;
[0023]所述的数据采集和预处理模块用于获取视频集合,对视频集合中的每个视频截取相同的帧数获得视频段集合,对视频片段集合中的每个视频段进行采样,获得每个视频段的多个采样片段,对每个视频段的多个采样片段的时序关系进行随机打乱,获得打乱时序的视频段;
[0024]所述的模型训练模块用于建立3D CNN模型,将所有打乱时序的视频段作为训练集,对3D CNN模型进行自监督训练,至模型收敛后训练结束,将训练好的3D CNN模型作为视频段序列预测模型;
[0025]所述的模型训练模块进行自监督训练包括多轮迭代过程,其中,第1轮迭代过程包
括如下子步骤:
[0026]步骤a1:将所有打乱时序的视频段输入3D CNN模型,计算每个视频段的VSS值,对所有视频段按照VSS值降序排列;
[0027]步骤a2:将降序排列的所有视频段分成多个视频组,计算每个视频组的平均VSS值并按照平均VSS值将多个视频组进行降序排列,执行步骤b1;
[0028]第t+1轮迭代过程包括如下子步骤,其中,t≥1:
[0029]步骤b1:按照第t轮迭代后得到的视频组的降序排列,依次将每个视频组所包含的多个视频段输入3D CNN模型;
[0030]步骤b2:更新每个视频段的VSS值,根据更新后的VSS值更新所有视频段的降序排列,根据更新后的所有视频段的降序排列计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于VSS的视频段序列预测模型建立方法,其特征在于,包括如下步骤:步骤1:获取视频集合,对视频集合中的每个视频截取相同的帧数获得视频段集合,对视频片段集合中的每个视频段进行采样,获得每个视频段的多个采样片段,对每个视频段的多个采样片段的时序关系进行随机打乱,获得打乱时序的每个视频段;步骤2:建立3D CNN模型,将所有打乱时序的视频段作为训练集,对3D CNN模型进行自监督训练,至模型收敛后训练结束,将训练好的3D CNN模型作为视频段序列预测模型;所述自监督训练包括多轮迭代过程,其中,第1轮迭代过程包括如下子步骤:步骤a1:将所有打乱时序的视频段输入3D CNN模型,计算每个视频段的VSS值,对所有视频段按照VSS值降序排列;步骤a2:将降序排列的所有视频段分成多个视频组,计算每个视频组的平均VSS值并按照平均VSS值将多个视频组进行降序排列,执行步骤b1;第t+1轮迭代过程包括如下子步骤,其中,t≥1:步骤b1:按照第t轮迭代后得到的视频组的降序排列,依次将每个视频组所包含的多个视频段输入3D CNN模型;步骤b2:更新每个视频段的VSS值,根据更新后的VSS值更新所有视频段的降序排列,根据更新后的所有视频段的降序排列计算每个视频组的更新平均VSS值,获得更新后的视频组的降序排列,令t=t+1返回执行步骤b1。2.如权利要求1所述的基于VSS的视频段序列预测模型建立方法,其特征在于,采用式Ⅰ计算每个视频段的VSS值计算每个视频段的VSS值其中,表示第t+1轮迭代时视频段的VSS值,t=1时α和β是权重参数,α和β的取值范围均为大于0,N
COP
表示该视频段的所有可能的时序关系的总类别数,N
COP
为大于1的正整数,Y
iCOP
表示在groundtruth中视频段属于总类别的第i类的概率,P
iCOP
表示预测结果中视频段属于总类别的第i类的概率,Y
iCOP
和P
iCOP
的取值范围均为[0,1],i∈[1,N
COP
]。3.一种基于VSS的视频段序列预测方法,其特征在于,包括如下步骤:步骤一:获取待排序的多个视频段;步骤二:将待排序的多个视频段输入如权利要求1

2任一种基于VSS的视频段序列预测模型建立方法建立的视频段序列预测模型中,获得待排序的多个视频段的最佳序列。4.一种基于VSS...

【专利技术属性】
技术研发人员:聂卫科孙豪杰句建国张添祥许鹏飞郭军郭凌何路
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1