视频场景边界检测模型的训练方法和场景边界检测方法技术

技术编号：37628858 阅读：10 留言：0更新日期：2023-05-18 12:20

本发明专利技术提供一种视频场景边界检测模型的训练方法和场景边界检测方法。该方法旨在学习深度学习模型，将长时间视频分解为有意义的故事片段，即视频场景边界检测。利用多模态专家网络和片段编码器提取输入视频序列的镜头级别多模态短时上下文特征。使用高阶编码器通过多头机制、浅层卷积网络和全局自注意力进行高阶关系建模和多模态特征融合；设计自适应解码器，利用可学习的场景原型机和交叉注意力机制将镜头级别特征聚合为场景级别特征。最后该方法利用包含上下文信息的镜头级特征和场景级特征来实现视频场景边界检测。模型根据预测场景边界和场景边界标签计算损失函数并根据损失迭代地调整初始的网络参数，得到经训练的视频场景边界检测模型。频场景边界检测模型。频场景边界检测模型。

全部详细技术资料下载

【技术实现步骤摘要】
视频场景边界检测模型的训练方法和场景边界检测方法

[0001]本专利技术涉及视频图像处理
，更具体地，涉及一种视频场景边界检测模型的训练方法和视频场景边界预测方法。

技术介绍

[0002]随着多媒体技术的进步，海量视频内容在互联网空间激增，诸如视频字幕生成、内容驱动的视频搜索、场景分类、以人为中心的故事情节构建应用也蓬勃发展。而长时间的视频内容理解、视频场景边界检测正是为这些应用提供基础支撑的关键性技术。
[0003]虽然现有技术在预测视频边界的过程中建模了多模态特征，但是缺忽略了各个镜头的上下文信息建模，忽略了不同视频的场景边界差异性很大，从而导致最终的预测结果的准确性较差。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种视频场景边界检测模型的训练方法和视频场景边界预测方法。
[0005]本专利技术实施例的一个方面提供了一种视频场景边界检测模型的训练方法，包括：获取训练数据集，其中，上述训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签，上述多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征；针对上述多模态样本特征中的任一模态特征，根据上述模态特征和与上述模态特征对应的邻居模态特征，生成与上述模态特征对应的上下文模态特征；基于时间相似性，利用注意力机制层对多个上述上下文模态特征进行特征融合处理，得到上下文融合特征；利用解码器根据上述上下文融合特征和场景原型机向量，生成动态聚合场景特征，其...

【技术保护点】

【技术特征摘要】
1.一种视频场景边界检测模型的训练方法，其特征在于，包括：获取训练数据集，其中，所述训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签，所述多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征；针对所述多模态样本特征中的任一模态特征，根据所述模态特征和与所述模态特征对应的邻居模态特征，生成与所述模态特征对应的上下文模态特征；基于时间相似性，利用注意力机制层对多个所述上下文模态特征进行特征融合处理，得到上下文融合特征；利用解码器根据所述上下文融合特征和场景原型机向量，生成动态聚合场景特征，其中，所述动态聚合场景特征用于回归场景边界位置；根据所述上下文融合特征、所述动态聚合场景特征和所述场景边界标签，生成预测场景边界，并根据所述预测场景边界和所述场景边界标签计算目标损失结果；根据所述目标损失结果迭代地调整初始神经网络的网络参数，得到经训练的所述视频场景边界检测模型，其中，所述初始神经网络包括专家网络、注意力机制层和解码器。2.根据权利要求1所述的训练方法，其特征在于，所述专家网络包括视觉骨干网络、地点骨干网络和音频骨干网络；其中，所述多模态样本特征是通过如下方式获得的：获取训练视频序列；利用所述视觉骨干网络对所述训练视频序列进行特征提取，得到所述视觉特征；利用所述地点骨干网络对所述训练视频序列进行特征提取，得到所述地点特征；利用所述音频骨干网络对所述训练视频序列进行特征提取，得到所述音频特征。3.根据权利要求1所述的训练方法，其特征在于，根据所述模态特征和与所述模态特征对应的邻居模态特征，生成与所述模态特征对应的上下文模态特征，包括：基于预设窗口长度，在所述模态特征中的每个序列特征中确定一个窗口特征，其中，所述窗口特征包括第一分窗口特征和第二分窗口特征；针对每个所述窗口特征，利用时域卷积层处理所述第一分窗口特征和所述第二分窗口特征，得到与所述窗口特征对应的差异信息和关系信息；利用第一全连接层处理分别处理每个所述差异信息和与所述差异信息对应的所述关系信息，得到所述上下文模态特征，其中，所述初始神经网络还包括所述时域卷积层和所述第一全连接层。4.根据权利要求1所述的训练方法，其特征在于，基于时间相似性，利用注意力机制层对多个所述上下文模态特征进行特征融合处理，得到上下文融合特征，包括：基于所述注意力机制层，根据多个所述上下文模态特征，生成多模态引导图；利用编码器处理所述多模态引导图，生成所述上下文融合特征，其中，所述初始神经网络还包括所述编码器。5.根据权利要求4所述的训练方法，其特征在于，基于所述注意力机制层，根据多个所述上下文模态特征，生成多模态引导图，包括：基...

【专利技术属性】
技术研发人员：张勇东，张天柱，魏曦，喻晓源，肖磊，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人