一种基于视频字幕的多模态视频摘要提取方法技术

技术编号：39308576 阅读：9 留言：0更新日期：2023-11-12 15:55

本发明专利技术公开了一种基于视频字幕的多模态视频摘要提取方法，包括：1获取视频的帧特征表示，2.获取字幕的特征表示，3.自动化的视频帧重要性评估，5.优化摘要器模型，6.优化基于关键帧的视频字幕生成器。本发明专利技术能快速输出短视频的关键帧集合及其对应的字幕，其中，关键帧集合以较少数目的视频帧以视觉的形式反映了视频的整体内容，相匹配的字幕则以文本的形式去概括视频画面，帮助用户更有效率的筛选短视频，并能节约存储空间和计算资源，更有利于部署应用于终端设备。署应用于终端设备。署应用于终端设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频字幕的多模态视频摘要提取方法

[0001]本专利技术属于人工智能领域，具体的说是一种基于视频字幕的多模态视频摘要提取方法。

技术介绍

[0002]短视频社交软件和自媒体的蓬勃发展使得互联网视频呈井喷式的增长，因此如何快速获取视频中的关键信息成为一个重要问题。视频摘要任务的目标是检索视频中的关键帧或是关键镜头等视频片段，这些片段中以最小的冗余度包含了尽可能多的信息。视频摘要的一个直接应用是视频网站中视频的封面展示，合理的摘要片段能帮助用户判断是否要点击该视频。由于视频摘要任务的特殊性，比如结果主观性较强、数据集标注难度比较大、视频分辨率变化等诸多因素，都给视频摘要技术的提升带来了巨大挑战。
[0003]上述存在的数据集标注困难的问题导致视频摘要领域高质量数据集数量往往是不足的，以往的视频摘要方法如Xu等人2022年发表的《MHSCNet:A Multimodal Hierarchical Shot
‑
aware Convolutional Network for Video Sum》往往基于TVSum和SumMe数据集，例如TVSum数据集对每个视频采用了20个标注员对视频的每一帧的重要性进行打分，该数据集包含50个视频，SumMe则是由15到20个标注员挑选出视频的关键片段，仅仅包含了20个视频。大规模视频摘要数据集人工标注成本是巨大的，因此也是不现实的。以往工作一般选择几个低质量数据集作为补充训练。如何采用现有的数据集在不增加额外标注成本的前提下训练出高质量的视频摘要模型，并且...

【技术保护点】

【技术特征摘要】
1.一种基于视频字幕的多模态视频摘要提取方法，其特征在于，是按如下步骤进行：步骤1、获取视频的帧特征表示：对于视频字幕数据集D＝{V,Y}，其中，V表示视频集，Y表示视频集中V每个视频对应的英文字幕语句集合；采用CLIP模型的视觉编码器对视视频集V中的任意第i个视频进行处理，得到第i个视频的帧特征表示F
i
＝{f
i,1,
f
i,2
,...,f
i,n
,..,f
i,N
}；其中，f
i,n
表示第i个视频中第n帧特征表示，N表示视频i的总帧数；步骤2、获取字幕的特征表示：采用CLIP模型的文本编码器对中第i个视频对应的英文字幕语句Y
i
＝{y
i,1,1
,...,y
i,1,W
；y
i,m,1
,y
i,m,2
,...,y
i,m,t
,...,y
i,m,W
；y
i,M,1
,...,y
i,M,W
}进行处理，得到视频i对应的英文字幕文本向量T
i
＝{t
i,1
,t
i,2
,...,t
i,m
,..,t
i,M
}，其中，y
i,m,t
表示第i个视频对应的第m个字幕语句中的第t个单词，t
i,m
表示第i个视频中对应的英文字幕语句中第m个字幕向量；W表示单词总数；步骤3、利用式(1)得到第i个视频中第n帧特征表示f
i,n
与字幕文本向量T
i
的平均相似度s(f
i,k
,T
i
)，并作为视频i的第n帧特征表示f
i,n
的自动化评分的自动化评分式(1)中，tr表示向量转置；步骤4、构建视频摘要器，包括：自注意力机制层、局部注意力增强层、全连接网络MLP，并进行训练；步骤4.1、所述自注意力机制层利用式(2)计算第i个视频中第n帧特征表示f
i,n
与第j帧特征表示f
i,j
的交互关系分r(f
i,n
,f
i,j
)：r(f
i,n
,f
i,j
)＝P
×
tanh(W1f
i,n
+W2f
i,j
+b)
ꢀꢀꢀꢀꢀꢀꢀ
(2)式(2)中，P,W1,W2是三个待学习的参数矩阵，b是偏置向量；tanh表示激活函数；步骤4.2、所述局部注意力增强层利用式(3)计算第i个视频中第n帧特征表示f
i,n
的局部注意力增强的视频帧特征从而得到第i个视频的局部注意力增强的特...

【专利技术属性】
技术研发人员：胡珍珍，王振山，宋子杰，洪日昌，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人