【技术实现步骤摘要】
基于上下文感知的深度视频拆条方法及装置
[0001]本专利技术属于计算机视觉领域,涉及一种基于上下文感知的深度视频拆条方法及装置。
技术介绍
[0002]随着多媒体数据的快速增长,大量的视频被制作和存储。为了降低人工成本,提高效率,智能视频理解受到了广泛的关注和研究。视频拆条任务就是将一个长视频,按照其语义拆分成多个独立的视频片段。对于长视频使用镜头检测工具,将帧级别输入变为镜头级别输入,现阶段的视频拆条聚焦于将镜头与视觉上最相似的镜头在语义上拉近,并没有考虑复杂的时间和语义结构,主要挑战在于如何对粗糙的二分类边界进行高阶语义上的度量。传统的视频拆条算法在预训练时通常使用卷积神经网络提取镜头表征并使用对比学习与视觉上最相似的镜头拉近。这种方式并没有考虑复杂的上下文关系与语义信息。
[0003]目前在视频场景分割任务中,利用对比学习可以将镜头与局部镜头的表征近似,在一定程度上提高了模型的性能,但是并未解决边界的复杂时间和语义结构感知困难的问题。
技术实现思路
[0004]本专利技术为解决传视频拆条任务中 ...
【技术保护点】
【技术特征摘要】
1.一种基于上下文感知的深度视频拆条方法,其特征在于,包括如下步骤:步骤1,预处理视频提取镜头信息;步骤2,基于上下文感知深度模型提取镜头特征并预测镜头边界;步骤3,基于半监督视频数据自监督训练上下文感知深度模型;步骤4,基于训练模型进行评估。2.如权利要求1所述的基于上下文感知的深度视频拆条方法,其特征在于,所述步骤1中,预处理视频提取镜头信息,具体为:输入原始视频帧,将视频从帧级别输入变为镜头级别输入;使用视频镜头检测工具,找到视觉变化的时刻作为镜头的分割并从开头中间结尾抽取三帧作为镜头的表示。3.如权利要求2所述的基于上下文感知的深度视频拆条方法,其特征在于,所述步骤2中,基于上下文感知深度模型提取镜头特征并预测镜头边界,上下文感知深度模型一共包括两个部分,分别为卷积神经网络和上下文感知的深度自注意力网络,具体特征提取为:根据输入窗口大小,构造输入的镜头序列;对于输入序列的每个镜头使用卷积神经网络提取视觉表征得到上下文感知的深度自注意力网络的输入,公式如下:其中表示为全连接函数,f
e
为卷积神经网络;对于镜头表征序列使用上下文感知的深度自注意力网络提取上下文特征表征,公式如下:其中f
t
为上下文感知的深度自注意力网络,为得到最终的镜头上下文表示,对于预测其是否是场景分割边界,公式如下:其中h
pre
为分类器,为是否是场景的预测值。4.如权利要求3所述的基于上下文感知的深度视频拆条方法,其特征在于,所述步骤3中,基于半监督视频数据自监督训练上下文感知深度模型,模型训练分为两个阶段,分别为预训练阶段和微调阶段;在预训练阶段,为优化镜头的上下文表示,学习到潜在的视频场景分割边界,以无标记视频作为输入,使用镜头级别和场景级别的代理任务预训练模型,镜头级别代理任务包括镜头掩码建模和镜头顺序建模,场景级别代理任务包括全局场景匹配和局部场景匹配,包括以下步骤:(1)对于镜头掩码建模,其目标是基于周围的镜头重建掩码镜头的表示,具体形式为:其中为被掩码镜头的集合,i为被掩码镜头索引,h
smm
为全连接函数;(2)对于镜头顺序建模,其目标是利用视频输入的顺序特性,重构出被打乱的镜头原来的位置,具体形式为:
其中为被打乱顺序镜头的集合,h
som
为镜头顺序预测分类器,j为被打乱顺序镜头的索引,s
j
为被打乱镜头的原始位置,CE为交叉熵;(3)对于全局场景匹配,其目标是使镜头与相关场景表征相似,与其他场景表征不相似,具体形式为:似,具体形式为:其中Q
t
,为根据相似度计算的场景相关和场景不相关镜头序列,为从中随机采样的镜头,mean(
·
)为平均池化操作,τ为温度系数,为一个minibatch内的其他场景级别表征,sim为余弦相似度;(4)对于局部场景匹配,其目标是衡量局部镜头语义一致性,具体形式为:其中sim为余弦相似度,为对比学习负例集合;(5)预训练阶段最终的损失函数形式为:L=L
smm
+L
som
+L
gsm
+L
lsm
在微调阶段,目标是学习真实的场景分割边界,因此输入有标记视频数据进行微调;微调时冻结卷积神经网络参数,通过有标记数据微调上下文感知的深度自注意力网络,使用交叉熵作为微调阶段的损失函数,具体为:其中y
t
为镜头的标签,h
pr...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。