一种基于脚本的多模态特征匹配视频剪辑方法及系统技术方案

技术编号：40976188 阅读：2 留言：0更新日期：2024-04-18 21:24

本发明专利技术提供了一种基于脚本的多模态特征匹配视频剪辑方法，包括：获取视频生产脚本以及候选视频；提取视频生产脚本的文本向量特征以及对候选视频进行分片并提取各视频片段的多模态视频向量特征；基于注意力机制对齐并融合视频生产脚本和候选视频的特征，根据视频生产脚本的文本向量特征，匹配具有最优视频向量特征的视频片段，并根据匹配的视频片段逐一完成剪辑；根据剪辑得到的视频片段推荐匹配的视频模板；视频生产脚本内容添加至视频模板中，并于剪辑得到的视频片段合成，得到成品视频。本发明专利技术可以在仅提供视频生产脚本与多个候选视频的前提下，实现智能标签提取与智能剪辑并自动匹配与视频主题相符的模板合成视频成片。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频处理，特别涉及一种基于脚本的多模态特征匹配视频剪辑方法及系统。

技术介绍

1、传统的短视频制作和剪辑方式主要包括以下步骤：1、视频内容策划，编写视频脚本；2、拍摄素材或者查找现有内容作为可用素材；3、使用视频编辑工具将素材按照脚本要求编辑成为成品视频。这样一个视频制作好需要较长的时间，并且过程中每个步骤都需要较大的人力消耗。

2、现有一种基于视频模板的短视频自动生产方式，即预先针对某种特定场景或类型编辑好一组固定的视频素材，然后使用者只需要将这组视频素材中的视频、音频替换成自己准备的素材，再输入准备好的文本内容，即可完成短视频的制作。这种方式虽然解决了一部分人力和时间的消耗，但是生产的视频形式受限于所选用的视频模板，包括视频的播放画面区域、视频尺寸、转场动画等。相当于视频脚本是固定模式并且素材的选择和应用场景也具有局限性。例如中秋节日相关的模板只能用于制作中秋活动相关的视频上，如果想生产其他内容的视频，则需要增加相关的模板，这样又增加了制作模板人员的工作。

技术实现思路

1、针对现有技术中存在的问题，提供了一种基于脚本的多模态特征匹配视频剪辑方法及系统，通过对视频生产脚本文件的文本向量特征与素材库中的视频进行匹配，完成智能剪辑。

2、本专利技术第一方面提出了一种基于脚本的多模态特征匹配视频剪辑方法，包括：

3、获取视频生产脚本以及候选视频；

4、提取视频生产脚本的文本向量特征以及对候选视频进行分片并提取各视频片段的多模态视频向量特征；

5、基于注意力机制对齐并融合视频生产脚本和候选视频的特征，根据视频生产脚本的文本向量特征，匹配具有最优视频向量特征的视频片段，并根据匹配的视频片段逐一完成剪辑；

6、根据剪辑得到的视频片段推荐匹配的视频模板；

7、视频生产脚本内容添加至视频模板中，并于剪辑得到的视频片段合成，得到成品视频。

8、进一步的，所述分片的方法包括：根据片段的时长、片段的分辨率或片段的向量特征进行划分。

9、进一步的，基于提示学习、领域适应微调对多模态预训练模型进行模型训练，将训练完毕的多模态模型用来提取视频生产脚本的文本向量特征、各视频片段的多模态视频向量特征，其中多模态视频向量特征包括文本、图像以及声音。

10、进一步的，还包括：基于视频内容的语义信息评价分片的质量，并加上用户的个性化爱好抽取代表视频主要内容的高质量分片并聚合得到视频摘要。

11、进一步的，所述视频模板的推荐方法为：结合剪辑产生的视频片段主题，推荐与剪辑产生的视频片段的特征或标签匹配度较高的模板库里的模板。

12、进一步的，所述视频片段合成过程中，根据视频模板确定包装素材，并将包装素材条件到视频中，其中包装素材包括字幕、空镜、转场、特效、和/或贴图。

13、本专利技术第二方面提供了一种基于脚本的多模态特征匹配视频剪辑系统，包括：

14、脚本输入模块，用于获取用户给定的视频生产脚本；

15、视频生产模块，用于根据视频生产脚本提取的文本向量特征，对候选视频提取多模态特征，并结合与用户个性化偏好的视频摘要提取和智能剪辑，将智能剪辑后的视频片段匹配推荐的视频模板，按照视频生产脚本内容顺序合成生成成品视频。

16、进一步的，所述视频生产模块包括场景分片及合并模块、多模态嵌入模块；其中，

17、场景分片及合并模块，用于将连续的视频流基于画面切换将其分割成独立的视频片段。

18、多模态嵌入模块，基于提示学习、领域适应微调对多模态预训练模型进行模型训练，将训练完毕的多模态模型用来提取视频生产脚本的文本向量特征、各视频片段的多模态视频向量特征。

19、进一步的，

20、所述视频生产模块包括跨模态特征融合模块和分数预测模块，其中，

21、跨模态特征融合模块，基于注意力机制实现跨模态特征融合以得到表征效果更好的向量特征，实现视频生产脚本和候选视频的特征融合和对齐；

22、分数预测模块，根据视频生产脚本的文本向量特征，匹配具有最优视频向量特征的视频片段。

23、进一步的，视频生产模块还包括视频合成模块，根据匹配的视频片段完成剪辑，并基于多模态特征实现跨模态召回与排序算法获取匹配的模板，视频生产脚本内容添加至视频模板中并结合剪辑结果，按照视频生产脚本内容顺序合成生成成品视频。

24、与现有技术相比，采用上述技术方案的有益效果为：本专利技术可以在仅提供视频生产脚本(唱词)与多个候选视频的前提下，实现智能标签提取与智能剪辑并自动匹配与视频主题相符的模板合成视频成片。

本文档来自技高网...

【技术保护点】

1.一种基于脚本的多模态特征匹配视频剪辑方法，其特征在于，包括：

2.根据权利要求1所述的基于脚本的多模态特征匹配视频剪辑方法，其特征在于，所述分片的方法包括：根据片段的时长、片段的分辨率或片段的向量特征进行划分。

3.根据权利要求1所述的基于脚本的多模态特征匹配视频剪辑方法，其特征在于，基于提示学习、领域适应微调对多模态预训练模型进行模型训练，将训练完毕的多模态模型用来提取视频生产脚本的文本向量特征、各视频片段的多模态视频向量特征，其中多模态视频向量特征包括文本、图像以及声音。

4.根据权利要求1所述的基于脚本的多模态特征匹配视频剪辑方法，其特征在于，还包括：基于视频内容的语义信息评价分片的质量，并加上用户的个性化爱好抽取代表视频主要内容的高质量分片并聚合得到视频摘要。

5.根据权利要求1所述的基于脚本的多模态特征匹配视频剪辑方法，其特征在于，所述视频模板的推荐方法为：结合剪辑产生的视频片段主题，推荐与剪辑产生的视频片段的特征或标签匹配度较高的模板库里的视频模板。

6.根据权利要求1所述的基于脚本的多模态特征匹配视频剪

7.一种基于脚本的多模态特征匹配视频剪辑系统，其特征在于，包括：

8.根据权利要求7所述的基于脚本的多模态特征匹配视频剪辑系统，其特征在于，所述视频生产模块包括场景分片及合并模块、多模态嵌入模块；其中，

9.根据权利要求7所述的基于脚本的多模态特征匹配视频剪辑系统，其特征在于，所述视频生产模块包括跨模态特征融合模块和分数预测模块，其中，

10.根据权利要求7所述的基于脚本的多模态特征匹配视频剪辑系统，其特征在于，所述视频生产模块还包括视频合成模块，根据匹配的视频片段完成剪辑，并基于多模态特征实现跨模态召回与排序算法获取匹配的模板，视频生产脚本内容添加至视频模板中并结合剪辑结果，按照视频生产脚本内容顺序合成生成成品视频。

...

【技术特征摘要】

1.一种基于脚本的多模态特征匹配视频剪辑方法，其特征在于，包括：

5.根据权利要求1所述的基于脚本的多模态特征匹配视频剪辑方法，其特征在于，所述视频模板的推荐方法为：结合剪辑产生的视频片段主题，推荐与剪辑产生的视频片段的特征或标签匹配度较高的模板...

【专利技术属性】
技术研发人员：杨加利，丁财志，王嘉琦，倪宇，杨瀚，江庆，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人