视频摘要生成方法、模型训练方法、装置和存储介质制造方法及图纸

技术编号：46606985 阅读：0 留言：0更新日期：2025-10-14 21:06

本公开提供了视频摘要生成方法、模型训练方法、装置和存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习等技术领域。具体实现方案为：在获取用户针对目标视频所输入的摘要生成需求文本后，确定目标视频的第一视频帧序列的第一视频帧向量序列以及摘要生成需求文本的第一语句序列的第一语句向量序列，并对第一视频帧向量序列和第一语句向量序列进行融合，得到第一视频帧序列的第一融合特征向量序列，以及根据第一融合特征向量序列确定第一视频帧序列的第一重要性评分序列，并根据第一重要性评分序列，从第一视频帧序列中确定第一目标视频帧，以及根据第一目标视频帧生成目标视频的视频摘要。由此，提升了视频摘要生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及计算机视觉、深度学习等，尤其涉及一种视频摘要生成方法、模型训练方法、装置和存储介质。

技术介绍

1、随着数字媒体技术的飞速发展，影视、新闻、综艺等各类数字视频数量激增。在视频观看过程中，不同用户通常对同一视频有着各自不同的摘要需求。

技术实现思路

1、本公开提供了一种视频摘要生成方法、模型训练方法、装置和存储介质。

2、根据本公开的一方面，提供了一种视频摘要生成方法，所述方法包括：获取用户针对目标视频所输入的摘要生成需求文本；确定目标视频的第一视频帧序列的第一视频帧向量序列以及所述摘要生成需求文本的第一语句序列的第一语句向量序列；通过至少融合所述第一视频帧向量序列和所述第一语句向量序列，得到所述第一视频帧序列的第一融合特征向量序列；根据所述第一融合特征向量序列确定所述第一视频帧序列的第一重要性评分序列；根据所述第一重要性评分序列，从所述第一视频帧序列中确定第一目标视频帧；根据所述第一目标视频帧生成所述目标视频的视频摘要。

3、根据本公开的...

【技术保护点】

1.一种视频摘要生成方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述确定目标视频的第一视频帧序列的第一视频帧向量序列以及所述摘要生成需求文本的第一语句序列的第一语句向量序列，包括：

4.根据权利要求2所述的方法，其中，所述对所述第一视频帧向量序列、所述第一时序位置向量序列和所述第一语句向量序列进行融合，得到所述第一融合特征向量序列，包括：

5.根据权利要求1所述的方法，其中，所述根据所述第一融合特征向量序列确定所述第一视频帧序列的第一重要性评分序列，包括：>

6.根据权利...

【技术特征摘要】

1.一种视频摘要生成方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

5.根据权利要求1所述的方法，其中，所述根据所述第一融合特征向量序列确定所述第一视频帧序列的第一重要性评分序列，包括：

6.根据权利要求1所述的方法，其中，所述根据所述第一目标视频帧生成所述目标视频的视频摘要，包括：

7.根据权利要求6所述的方法，其中，所述根据所述第一目标视频帧在所述第一视频帧序列中对应的顺序，对所述第一目标视频帧进行排序，得到所述视频摘要，包括：

8.根据权利要求1所述的方法，其中，所述方法还包括：

9.根据权利要求1所述的方法，其中，所述根据所述第一目标视频帧生成所述目标视频的视频摘要，包括：

10.一种视频摘要模型的训练方法，包括：

11.根据权利要求10所述的方法，其中，所述根据所述样本视频摘要和所述预测视频摘要，对所述初始视频摘要模型进行训练，得到经过训练的视频摘要模型，包括：

12.根据权利要求10所述的方法，其中，所述编码层还用于对所述第二视频帧序列的第二时序位置序列进行编码，得到第二时序位置向量序列；所述多模态融合层还用于对所述第二视频帧向量序列、所述第二时序位置向量序列和所述第二语句向量序列进行融合，得到所述第二融合特征向量序列。

13.根据权利要求12所述的方法，其中，所述编码层包括：视觉编码层、时序位置编码层和文本编码层，所述视觉编码层用于对第二视频帧序列进行编码，得到所述第二视频帧向...

【专利技术属性】
技术研发人员：张继丰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人