视频场景边界检测模型的训练方法和场景边界检测方法技术

技术编号:37628858 阅读:10 留言:0更新日期:2023-05-18 12:20
本发明专利技术提供一种视频场景边界检测模型的训练方法和场景边界检测方法。该方法旨在学习深度学习模型,将长时间视频分解为有意义的故事片段,即视频场景边界检测。利用多模态专家网络和片段编码器提取输入视频序列的镜头级别多模态短时上下文特征。使用高阶编码器通过多头机制、浅层卷积网络和全局自注意力进行高阶关系建模和多模态特征融合;设计自适应解码器,利用可学习的场景原型机和交叉注意力机制将镜头级别特征聚合为场景级别特征。最后该方法利用包含上下文信息的镜头级特征和场景级特征来实现视频场景边界检测。模型根据预测场景边界和场景边界标签计算损失函数并根据损失迭代地调整初始的网络参数,得到经训练的视频场景边界检测模型。频场景边界检测模型。频场景边界检测模型。

【技术实现步骤摘要】
视频场景边界检测模型的训练方法和场景边界检测方法


[0001]本专利技术涉及视频图像处理
,更具体地,涉及一种视频场景边界检测模型的训练方法和视频场景边界预测方法。

技术介绍

[0002]随着多媒体技术的进步,海量视频内容在互联网空间激增,诸如视频字幕生成、内容驱动的视频搜索、场景分类、以人为中心的故事情节构建应用也蓬勃发展。而长时间的视频内容理解、视频场景边界检测正是为这些应用提供基础支撑的关键性技术。
[0003]虽然现有技术在预测视频边界的过程中建模了多模态特征,但是缺忽略了各个镜头的上下文信息建模,忽略了不同视频的场景边界差异性很大,从而导致最终的预测结果的准确性较差。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种视频场景边界检测模型的训练方法和视频场景边界预测方法。
[0005]本专利技术实施例的一个方面提供了一种视频场景边界检测模型的训练方法,包括:获取训练数据集,其中,上述训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签,上述多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征;针对上述多模态样本特征中的任一模态特征,根据上述模态特征和与上述模态特征对应的邻居模态特征,生成与上述模态特征对应的上下文模态特征;基于时间相似性,利用注意力机制层对多个上述上下文模态特征进行特征融合处理,得到上下文融合特征;利用解码器根据上述上下文融合特征和场景原型机向量,生成动态聚合场景特征,其中,上述动态聚合场景特征用于回归场景边界位置;根据上述上下文融合特征、上述动态聚合场景特征和上述场景边界标签,生成预测场景边界,并根据上述预测场景边界和上述场景边界标签计算目标损失结果;根据上述目标损失结果迭代地调整初始神经网络的网络参数,得到经训练的上述视频场景边界检测模型,其中,上述初始神经网络包括专家网络、注意力机制层和解码器。
[0006]根据本专利技术的实施例,上述专家网络包括视觉骨干网络、地点骨干网络和音频骨干网络;其中,上述多模态样本特征是通过如下方式获得的:获取训练视频序列;利用上述视觉骨干网络对上述训练视频序列进行特征提取,得到上述视觉特征;利用上述地点骨干网络对上述训练视频序列进行特征提取,得到上述地点特征;利用上述音频骨干网络对上述训练视频序列进行特征提取,得到上述音频特征。
[0007]根据本专利技术的实施例,根据上述模态特征和与上述模态特征对应的邻居模态特征,生成与上述模态特征对应的上下文模态特征,包括:基于预设窗口长度,在上述模态特征中的每个序列特征中确定一个窗口特征,其中,上述窗口特征包括第一分窗口特征和第二分窗口特征;针对每个上述窗口特征,利用时域卷积层处理上述第一分窗口特征和上述第二分窗口特征,得到与上述窗口特征对应的差异信息和关系信息;利用第一全连接层处理分别处理每个上述差异信息和与上述差异信息对应的上述关系信息,得到上述上下文模态特征,其中,上述初始神经网络还包括上述时域卷积层和上述第一全连接层。
[0008]根据本专利技术的实施例,基于时间相似性,利用注意力机制层对多个上述上下文模态特征进行特征融合处理,得到上下文融合特征,包括:基于上述注意力机制层,根据多个上述上下文模态特征,生成多模态引导图;利用编码器处理上述多模态引导图,生成上述上下文融合特征,其中,上述初始神经网络还包括上述编码器。
[0009]根据本专利技术的实施例,基于上述注意力机制层,根据多个上述上下文模态特征,生成多模态引导图,包括:基于上述时间相似性,根据多个上述上下文模态特征,生成时间相似性矩阵;利用上述注意力机制层处理上述时间相似性矩阵,得到上述多模态引导图。
[0010]根据本专利技术的实施例,利用编码器处理上述多模态引导图,生成上述上下文融合特征,包括:利用第二全连接层处理多个上述上下文模态特征,生成中间模态特征;根据上述中间模态特征和上述编码器的参数,生成向量集合,其中,上述向量集合包括查询向量、键向量和值向量;基于预设处理规则,根据上述向量集合和上述多模态引导图,生成上述上下文融合特征,其中,上述预设处理规则包括残差连接、归一化操作和前馈层处理操作。
[0011]根据本专利技术的实施例,利用解码器根据上述上下文融合特征和场景原型机向量,生成动态聚合场景特征,包括:根据上述上下文融合特征和场景原型机向量,生成更新后的场景原型机向量;根据上述更新后的场景原型机向量、上述解码器的参数和上述上下文融合特征,生成过渡模态特征;根据上述过渡模态特征和上述上下文融合特征,生成上述动态聚合场景特征。
[0012]根据本专利技术的实施例,上述上下文融合特征包括多个融合子特征,每个上述融合子特征对应于上述视频序列样本中的一个视频帧;其中,根据上述上下文融合特征、上述动态聚合场景特征和上述场景边界标签,生成预测场景边界,并根据上述预测场景边界和上述场景边界标签计算目标损失结果,包括:将与所述上下文融合特征的二分类值对应的融合子特征确定为第一预测边界;将上述第一预测边界和上述场景边界标签输入分类损失函数,输出第一损失结果;根据线性层回归头和上述动态聚合场景特征生成第二预测边界;
将上述场景边界标签和上述第二预测边界输入均方误差函数,输出第二损失结果;根据上述第一损失结果和上述第二损失结果,生成上述目标损失结果。
[0013]根据本专利技术的实施例,视频场景边界检测模型的训练方法还包括:获取测试数据集,其中,上述测试数据集包括与每个测试视频序列样本对应的多模态测试特征和与每个视频序列测试样本对应的场景边界测试标签;针对每个上述多模态测试特征,将上述多模态测试特征输入上述视频场景边界检测模型,输出测试视频场景边界;根据上述测试视频场景边界和上述场景边界测试标签,计算测试准确率;在上述测试准确率不满足准确率阈值的情况下,根据上述测试准确率迭代地调整上述视频场景边界检测模型的网络参数,得到新的视频场景边界检测模型。
[0014]本专利技术实施例的另一个方面提供了一种视频场景边界预测方法,包括:获取由视频采集设备拍摄的待处理视频序列;将上述待处理视频序列输入视频场景边界检测模型,输出预测的视频场景边界;其中,上述视频场景边界检测模型是利用如上所述的方法训练得到的。
[0015]根据本专利技术的实施例,通过提取视频序列中视觉、地点和音频等多模态特征,对于每个模态特征进行片段层级的上下文建模,从而得到每种模态特征的上下文模态特征,利用解码器根据融合得到的上下文融合特征上下文融合特征和场景原型机向量挖掘多模态特征之间的复杂关联,并建模它们的上下文语义,利用解码器根据上下文融合特征和场景原型机向量,生成视频场景级别的动态聚合场景特征,最终根据目标损失结果调整整个初始神经网络的网络参数,得到视频场景边界检测模型。因此至少部分地克服了相关技术中在对视频场景的边界划分时产生的边界划分结果不准确的技术问题,实现了准确识别视频场景的边界,便于根据场景边界生成对应于不同故事情节的视频片段。
附图说明
[0016]通过以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频场景边界检测模型的训练方法,其特征在于,包括:获取训练数据集,其中,所述训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签,所述多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征;针对所述多模态样本特征中的任一模态特征,根据所述模态特征和与所述模态特征对应的邻居模态特征,生成与所述模态特征对应的上下文模态特征;基于时间相似性,利用注意力机制层对多个所述上下文模态特征进行特征融合处理,得到上下文融合特征;利用解码器根据所述上下文融合特征和场景原型机向量,生成动态聚合场景特征,其中,所述动态聚合场景特征用于回归场景边界位置;根据所述上下文融合特征、所述动态聚合场景特征和所述场景边界标签,生成预测场景边界,并根据所述预测场景边界和所述场景边界标签计算目标损失结果;根据所述目标损失结果迭代地调整初始神经网络的网络参数,得到经训练的所述视频场景边界检测模型,其中,所述初始神经网络包括专家网络、注意力机制层和解码器。2.根据权利要求1所述的训练方法,其特征在于,所述专家网络包括视觉骨干网络、地点骨干网络和音频骨干网络;其中,所述多模态样本特征是通过如下方式获得的:获取训练视频序列;利用所述视觉骨干网络对所述训练视频序列进行特征提取,得到所述视觉特征;利用所述地点骨干网络对所述训练视频序列进行特征提取,得到所述地点特征;利用所述音频骨干网络对所述训练视频序列进行特征提取,得到所述音频特征。3.根据权利要求1所述的训练方法,其特征在于,根据所述模态特征和与所述模态特征对应的邻居模态特征,生成与所述模态特征对应的上下文模态特征,包括:基于预设窗口长度,在所述模态特征中的每个序列特征中确定一个窗口特征,其中,所述窗口特征包括第一分窗口特征和第二分窗口特征;针对每个所述窗口特征,利用时域卷积层处理所述第一分窗口特征和所述第二分窗口特征,得到与所述窗口特征对应的差异信息和关系信息;利用第一全连接层处理分别处理每个所述差异信息和与所述差异信息对应的所述关系信息,得到所述上下文模态特征,其中,所述初始神经网络还包括所述时域卷积层和所述第一全连接层。4.根据权利要求1所述的训练方法,其特征在于,基于时间相似性,利用注意力机制层对多个所述上下文模态特征进行特征融合处理,得到上下文融合特征,包括:基于所述注意力机制层,根据多个所述上下文模态特征,生成多模态引导图;利用编码器处理所述多模态引导图,生成所述上下文融合特征,其中,所述初始神经网络还包括所述编码器。5.根据权利要求4所述的训练方法,其特征在于,基于所述注意力机制层,根据多个所述上下文模态特征,生成多模态引导图,包括:基...

【专利技术属性】
技术研发人员:张勇东张天柱魏曦喻晓源肖磊
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1