基于多模态融合模型的体育赛事解说视频剪辑方法及系统技术方案

技术编号：40918861 阅读：2 留言：0更新日期：2024-04-18 14:44

本发明专利技术公开了基于多模态融合模型的体育赛事解说视频剪辑方法及系统，涉及视频剪辑技术领域，包括：接收体育赛事解说视频及剪辑切片，将体育赛事解说视频及剪辑切片整合生成体育赛事解说视频剪辑数据集；将体育赛事解说视频剪辑数据集输入至预先建立的多模态融合模型内，输出得到推理结果，利用得到的推理结果与体育赛事解说视频剪辑数据集内的数据进行计算，得交叉熵损失函数；设定函数阈值，若交叉熵损失函数小于阈值，则更新并保存多模态融合模型参数，得到训练后的多模态融合模型参数，若大于等于阈值，则重新计算，至小于阈值为止；将体育赛事解说视频输入至训练后的多模态融合模型参数内，得到优化推理结果，对体育赛事解说视频进行剪辑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频剪辑，具体的是基于多模态融合模型的体育赛事解说视频剪辑方法及系统。

技术介绍

1、随着社会的进步和科技的发展，人们的娱乐方式越来越多样化。观看体育赛事是其中一种非常受欢迎的方式。然而，传统的体育赛事解说视频往往长达数小时，这对于观众来说并不方便。因此，为了满足观众的需求，体育赛事的转播方需要将解说视频快速剪辑成精彩的短视频，投放到短视频平台，以吸引更多的流量。

2、在体育赛事解说视频剪辑领域，传统的方法主要依靠观察员的主观意见和经验来决定剪辑内容，然而，这种方法存在一定的主观性和片面性，无法全面准确地捕捉到比赛的关键时刻和重要信息；并且传统的视频剪辑方法往往需要人工操作，效率低下，容易出错。

技术实现思路

1、为解决上述
技术介绍
中提到的不足，本专利技术的目的在于提供基于多模态融合模型的体育赛事解说视频剪辑方法及系统，能够充分利用体育赛事解说视频的多个模态信息，来快速地精确地剪辑出精彩的体育赛事解说视频切片。

2、第一方面，本专利技术的目的可以通过以下技术方案实现：基于多模态融合模型的体育赛事解说视频剪辑方法，方法包括以下步骤：

3、接收体育赛事解说视频及剪辑切片，将体育赛事解说视频及剪辑切片进行整合生成体育赛事解说视频剪辑数据集；

4、将体育赛事解说视频剪辑数据集输入至预先建立的多模态融合模型内，输出得到推理结果，利用得到的推理结果与体育赛事解说视频剪辑数据集内的数据进行计算，得出交叉熵损失函数；

5、设

6、将体育赛事解说视频输入至训练后的多模态融合模型参数内，得到优化推理结果，根据优化推理结果对体育赛事解说视频进行剪辑。

7、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述将体育赛事解说视频及剪辑切片进行整合生成体育赛事解说视频剪辑数据集的过程包括以下步骤：

8、初始化数据集d，其中d为空集；

9、将体育赛事解说视频通过视频网站上进行搜索，标记为v，在m个在不同视频平台各找一个视频v的播放量高的剪辑切片，标记为cvi，其中cvi＝{cv1,cv2,…,cvm}，其中m为多模态融合模型的多头自注意力机制中头的个数；

10、获取每个cvi在v内的开始时间csi和结束时间cei；

11、将v中所有的cvi的开始时间csi和结束时间cei组合起来，生成数据集条目de＝{v,cs1,cs2,…,csm,ce1,ce2,…,cem}；

12、将数据集条目de输入至数据集d内，重复以上步骤，继续得到数据集条目并输入至数据集d内，至数据集d达到设定数量要求，输出得到体育赛事解说视频剪辑数据集d。

13、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述将体育赛事解说视频剪辑数据集输入至预先建立的多模态融合模型内，输出得到推理结果的过程包括以下步骤：

14、将体育赛事解说视频剪辑数据集d内原始的体育赛事解说视频v进行视频转音频a；对音频a进行语音转文本操作，得到音频中每一句话的文本{t1,t2,…,tn}，获取每一句话的文本在音频a中的开始时间{s1,s2…,sn}，以及每一句话的文本在音频a中的结束时间{e1,e2,…,en}；

15、提取每一句话的文本的文本模态信息和画面模态信息；对于每一句话的文本ti，提取这一句文本的文本模态信息向量tfi；根据si和ei，在原始的体育赛事解说视频v中定位到画面集合c，提取画面集合c的画面模态信息向量cfi；把文本模态信息向量tfi和画面模态信息向量cfi拼接起来，形成增广矩阵，得到这一句话的文本的多模态特征融合向量mfi＝[tfi,cfi]；

16、利用得到的mfi＝{mf1,mf2,…,mfn}使用头数量为m的多头自注意力机制，得到一个大小为m*n的多模态剪辑位点推荐张量其中afmij表示在mfj在第i个注意力头中的输出，是一个向量，维度与mfi相同；m是多模态融合模型的多头自注意力机制中头的个数；

17、将多模态剪辑位点推荐张量mct中的每个向量afmij都通过一个全连接层，变换成一个二维的剪辑位点推荐值向量mcvij；将剪辑位点推荐值向量mcvij使用softmax层进行归一化，得到剪辑位点推荐概率向量mcpvij；剪辑位点推荐概率向量的第一个元素表示了第i个剪辑结果中文本片段j被剪辑进去的概率，将概率值记为mcpij＝mcpvij[0]；记第i个头的剪辑位点推荐概率集合mcpgi＝{mcpi1,mcpi2,…,mcpin}，作为推理结果。

18、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述文本模态信息向量tfi和画面模态信息向量cfi的获取过程：

19、将文本ti输入预训练之后的bert模型，得到n个维度为768的向量，记为{tv1,tv2,…,tvn}；

20、将得到的n个向量{tv1,tv2,…,tvn}使用lstm进行时序特征提取，取lstm的最后一个hidden状态作为文本的文本模态信息向量tfi；

21、在画面集合c中均匀地抽取t＝2*(ei-si+1)个图像，形成抽取过后的图像集合对于im中的每个图像，使用cnn进行图像特征提取，得到图像特征向量

22、将得到的t个得到图像特征向量使用lstm进行时序特征提取，取lstm的最后一个hidden状态作为画面集合的画面模态信息向量cfi。

23、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述使用cnn进行图像特征提取，得到图像特征向量的过程如下：

24、对于输入图像img，使用大小为3*3的卷积核，对img进行卷积操作；再对卷积结果使用核大小为2*2的最大池化层进行最大池化；把最大池化后的结果转变为一维向量；

25、对一维向量进行线性变换，再经过relu激活函数，得到输入图像使用cnn提取特征之后的向量，作为图像特征向量

26、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述利用得到的推理结果与体育赛事解说视频剪辑数据集内的数据进行计算，得出交叉熵损失函数的过程包括以下步骤：

27、形成第i个头的输出的事实向量，方法为：找到视频v对应的数据集条目中的csi和cei；初始化事实向量gi＝{0,0,…,0}，长度为n，n为得到的文本的段数；对于第j段文本，如果文本的开始和结束时间构成的区间为csi和cei构成的区间的子区间，那么gi[j]＝0，否则gi[j]＝1；

28、用gi与mcpgi计算交叉熵损失函数，并把结果中的所有元素求和，得到第i个头的损失函数值li

29、对所有m个头都进行以上操作，把所有损失函数值求和，得到最终本文档来自技高网...

【技术保护点】

1.基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，方法包括以下步骤：

2.根据权利要求1所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述将体育赛事解说视频及剪辑切片进行整合生成体育赛事解说视频剪辑数据集的过程包括以下步骤：

3.根据权利要求1所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述将体育赛事解说视频剪辑数据集输入至预先建立的多模态融合模型内，输出得到推理结果的过程包括以下步骤：

4.根据权利要求3所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述文本模态信息向量TFi和画面模态信息向量CFi的获取过程：

5.根据权利要求4所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述使用CNN进行图像特征提取，得到图像特征向量的过程如下：

6.根据权利要求1所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述利用得到的推理结果与体育赛事解说视频剪辑数据集内的数据进行计算，得出交叉熵损失函数的过程包括以下步骤：

8.根据权利要求7所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述使用动态规划算法得出TMCPGi的过程包括以下步骤：

9.基于多模态融合模型的体育赛事解说视频剪辑系统，其特征在于，包括：

10.一种设备，其特征在于，包括：

...

【技术特征摘要】

1.基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，方法包括以下步骤：

4.根据权利要求3所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述文本模态信息向量tfi和画面模态信息向量cfi的获取过程：

5.根据权利要求4所述的基于多模态融合模型的体育赛事解说视频剪辑方法，其特征在于，所述使用cnn进行图像特征提取...

【专利技术属性】
技术研发人员：陈奕帆，张祥，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人