一种基于视频字幕的多模态视频摘要提取方法技术

技术编号:39308576 阅读:9 留言:0更新日期:2023-11-12 15:55
本发明专利技术公开了一种基于视频字幕的多模态视频摘要提取方法,包括:1获取视频的帧特征表示,2.获取字幕的特征表示,3.自动化的视频帧重要性评估,5.优化摘要器模型,6.优化基于关键帧的视频字幕生成器。本发明专利技术能快速输出短视频的关键帧集合及其对应的字幕,其中,关键帧集合以较少数目的视频帧以视觉的形式反映了视频的整体内容,相匹配的字幕则以文本的形式去概括视频画面,帮助用户更有效率的筛选短视频,并能节约存储空间和计算资源,更有利于部署应用于终端设备。署应用于终端设备。署应用于终端设备。

【技术实现步骤摘要】
一种基于视频字幕的多模态视频摘要提取方法


[0001]本专利技术属于人工智能领域,具体的说是一种基于视频字幕的多模态视频摘要提取方法。

技术介绍

[0002]短视频社交软件和自媒体的蓬勃发展使得互联网视频呈井喷式的增长,因此如何快速获取视频中的关键信息成为一个重要问题。视频摘要任务的目标是检索视频中的关键帧或是关键镜头等视频片段,这些片段中以最小的冗余度包含了尽可能多的信息。视频摘要的一个直接应用是视频网站中视频的封面展示,合理的摘要片段能帮助用户判断是否要点击该视频。由于视频摘要任务的特殊性,比如结果主观性较强、数据集标注难度比较大、视频分辨率变化等诸多因素,都给视频摘要技术的提升带来了巨大挑战。
[0003]上述存在的数据集标注困难的问题导致视频摘要领域高质量数据集数量往往是不足的,以往的视频摘要方法如Xu等人2022年发表的《MHSCNet:A Multimodal Hierarchical Shot

aware Convolutional Network for Video Sum》往往基于TVSum和SumMe数据集,例如TVSum数据集对每个视频采用了20个标注员对视频的每一帧的重要性进行打分,该数据集包含50个视频,SumMe则是由15到20个标注员挑选出视频的关键片段,仅仅包含了20个视频。大规模视频摘要数据集人工标注成本是巨大的,因此也是不现实的。以往工作一般选择几个低质量数据集作为补充训练。如何采用现有的数据集在不增加额外标注成本的前提下训练出高质量的视频摘要模型,并且以合理的方式利用摘要出的视频帧仍是亟待解决的问题。

技术实现思路

[0004]本专利技术是为了解决上述现有技术存在的不足之处,提出了一种基于视频字幕的多模态视频摘要提取方法,以期能同时输出视频摘要和视频字幕,从而能帮助用户更有效率的筛选短视频,并能节约存储空间和计算资源,更有利于部署应用于终端设备。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种基于视频字幕的多模态视频摘要提取方法的特点在于,是按如下步骤进行:
[0007]步骤1、获取视频的帧特征表示:
[0008]对于视频字幕数据集D={V,Y},其中,V表示视频集,Y表示视频集中V每个视频对应的英文字幕语句集合;
[0009]采用CLIP模型的视觉编码器对视视频集V中的任意第i个视频进行处理,得到第i个视频的帧特征表示F
i
={f
i,1,
f
i,2
,...,f
i,n
,..,f
i,N
};其中,f
i,n
表示第i个视频中第n帧特征表示,N表示视频i的总帧数;
[0010]步骤2、获取字幕的特征表示:
[0011]采用CLIP模型的文本编码器对中第i个视频对应的英文字幕语句Y
i
={y
i,1,1
,...,
y
i,1,W
;y
i,m,1
,y
i,m,2
,...,y
i,m,t
,...,y
i,m,W
;y
i,M,1
,...,y
i,M,W
}进行处理,得到视频i对应的英文字幕文本向量T
i
={t
i,1
,t
i,2
,...,t
i,m
,..,t
i,M
},其中,y
i,m,t
表示第i个视频对应的第m个字幕语句中的第t个单词,t
i,m
表示第i个视频中对应的英文字幕语句中第m个字幕向量;W表示单词总数;
[0012]步骤3、利用式(1)得到第i个视频中第n帧特征表示f
i,n
与字幕文本向量T
i
的平均相似度s(f
i,k
,T
i
),并作为视频i的第n帧特征表示f
i,n
的自动化评分
[0013][0014]式(1)中,tr表示向量转置;
[0015]步骤4、构建视频摘要器,包括:自注意力机制层、局部注意力增强层、全连接网络MLP,并进行训练;
[0016]步骤4.1、所述自注意力机制层利用式(2)计算第i个视频中第n帧特征表示f
i,n
与第j帧特征表示f
i,j
的交互关系分r(f
i,n
,f
i,j
):
[0017]r(f
i,n
,f
i,j
)=P
×
tanh(W1f
i,n
+W2f
i,j
+b)
ꢀꢀꢀ
(2)
[0018]式(2)中,P,W1,W2是三个待学习的参数矩阵,b是偏置向量;tanh表示激活函数;
[0019]步骤4.2、所述局部注意力增强层利用式(3)计算第i个视频中第n帧特征表示f
i,n
的局部注意力增强的视频帧特征从而得到第i个视频的局部注意力增强的特征表示
[0020][0021]式(3)中,表示第j帧特征表示f
i,j
与第i个视频的第n帧特征表示f
i,n
之间的关系权重,
·
代表向量逐元素的相乘,并有:
[0022][0023]步骤4.3、所述全连接网络MLP利用式(5)计算第i个视频的第n帧特征表示f
i,n
的预测评分
[0024][0025]式(5)中,GeLU表示激活函数;+表示残差连接;
[0026]步骤4.4、利用式(7)构建二分交叉熵损失L
vsum

[0027][0028]式(7)中,B表示所述视频字幕数据集D中视频的数目;
[0029]在第一训练阶段时,基于所述视频字幕数据集D,利用反向传播和梯度下降法对视频摘要器进行训练,并使得二分交叉熵损失L
vsum
达到最小时停止训练,从而得到训练好的视频摘要器模型;
[0030]步骤5、将第i个视频的帧特征表示F
i
={f
i,1,
f
i,2
,...,f
i,n
,..,f
i,N
}输入训练好的视频摘要器模型中,并选取预测评分最高的前K个帧特征表示构成子最优视频帧集其中,表示第i个视频的第k帧最优特征表示;K表示筛选出最优视频帧的数量;
[0031]步骤6、构建由轻量化的长短时记忆网络LSTM构成的解码器,并进行训练;
[0032]步骤6.1、当t=1时,所述第i个视频所对应的最优视频帧集输入解码器中,并得到第t个时间步输出的第i个视频对应的第m个字幕语句的预测单词
[0033]当t=2,3,
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频字幕的多模态视频摘要提取方法,其特征在于,是按如下步骤进行:步骤1、获取视频的帧特征表示:对于视频字幕数据集D={V,Y},其中,V表示视频集,Y表示视频集中V每个视频对应的英文字幕语句集合;采用CLIP模型的视觉编码器对视视频集V中的任意第i个视频进行处理,得到第i个视频的帧特征表示F
i
={f
i,1,
f
i,2
,...,f
i,n
,..,f
i,N
};其中,f
i,n
表示第i个视频中第n帧特征表示,N表示视频i的总帧数;步骤2、获取字幕的特征表示:采用CLIP模型的文本编码器对中第i个视频对应的英文字幕语句Y
i
={y
i,1,1
,...,y
i,1,W
;y
i,m,1
,y
i,m,2
,...,y
i,m,t
,...,y
i,m,W
;y
i,M,1
,...,y
i,M,W
}进行处理,得到视频i对应的英文字幕文本向量T
i
={t
i,1
,t
i,2
,...,t
i,m
,..,t
i,M
},其中,y
i,m,t
表示第i个视频对应的第m个字幕语句中的第t个单词,t
i,m
表示第i个视频中对应的英文字幕语句中第m个字幕向量;W表示单词总数;步骤3、利用式(1)得到第i个视频中第n帧特征表示f
i,n
与字幕文本向量T
i
的平均相似度s(f
i,k
,T
i
),并作为视频i的第n帧特征表示f
i,n
的自动化评分的自动化评分式(1)中,tr表示向量转置;步骤4、构建视频摘要器,包括:自注意力机制层、局部注意力增强层、全连接网络MLP,并进行训练;步骤4.1、所述自注意力机制层利用式(2)计算第i个视频中第n帧特征表示f
i,n
与第j帧特征表示f
i,j
的交互关系分r(f
i,n
,f
i,j
):r(f
i,n
,f
i,j
)=P
×
tanh(W1f
i,n
+W2f
i,j
+b)
ꢀꢀꢀꢀꢀꢀꢀ
(2)式(2)中,P,W1,W2是三个待学习的参数矩阵,b是偏置向量;tanh表示激活函数;步骤4.2、所述局部注意力增强层利用式(3)计算第i个视频中第n帧特征表示f
i,n
的局部注意力增强的视频帧特征从而得到第i个视频的局部注意力增强的特...

【专利技术属性】
技术研发人员:胡珍珍王振山宋子杰洪日昌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1