System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频生成方法、装置、电子设备及计算机可读存储介质制造方法及图纸_技高网

视频生成方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:44664129 阅读:4 留言:0更新日期:2025-03-19 20:21
本公开提供了一种视频生成方法、装置、电子设备及计算机可读存储介质,可以应用于人工智能和计算机视觉技术领域。该方法包括:根据用户输入的视频内容描述文本,生成场景提示文本,其中,场景提示文本用于限定视频的生成场景;将场景提示文本输入大语言模型,输出至少一个视频分镜文本;根据每个视频分镜文本的关键词,从数据库中确定与每个视频分镜文本匹配的视频片段;以及根据视频分镜文本和至少一个视频片段,生成与视频内容描述文本相匹配的目标视频。

【技术实现步骤摘要】

本公开涉及人工智能和计算机视觉,具体涉及一种视频生成方法、装置、电子设备及计算机可读存储介质


技术介绍

1、随着移动视频技术的普及,视频逐渐成为普罗大众认识世界的一种重要方式,视频内容创作也迎来了爆发式增长。目前,绝大多数视频生产者采取较为传统的视频生成方式:自己创作视频文本、搜索和筛选视频素材、剪辑视频以及对视频进行后期处理。传统的视频生成方式非常耗时,对于一个几个小时的视频往往需要长达数周的时间去制作。

2、因此,相关技术中至少存在以下技术问题:视频生成流程需要视频生产者实时参与,视频生成方式不够智能化。


技术实现思路

1、鉴于上述问题,本公开提供了一种视频生成方法、装置、电子设备及计算机可读存储介质。

2、根据本公开的第一个方面,提供了一种视频生成方法,包括:根据用户输入的视频内容描述文本,生成场景提示文本,其中,场景提示文本用于限定视频的生成场景;将场景提示文本输入大语言模型,输出至少一个视频分镜文本;根据每个视频分镜文本的关键词,从数据库中确定与每个视频分镜文本匹配的视频片段;以及根据视频分镜文本和至少一个视频片段,生成与视频内容描述文本相匹配的目标视频。

3、根据本公开的实施例,该方法还包括:将每个视频分镜文本输入大语言模型,输出每个视频分镜文本中的至少一个关键词

4、根据本公开的实施例,根据每个视频分镜文本的关键词,从数据库确定与每个视频分镜文本匹配的视频片段,包括:根据关键词,从数据库中搜索与关键词匹配的多个初始视频片段;确定每个初始视频片段与视频分镜文本的相似度;以及根据相似度,从多个初始视频片段中确定视频片段。

5、根据本公开的实施例,确定每个初始视频片段与视频分镜文本的相似度,包括:确定与初始视频片段对应的第一向量,其中,第一向量用于表征初始视频片段的图像特征;将视频分镜文本转换为第二向量;以及根据第一向量与第二向量,确定初始视频片段与视频分镜文本的相似度。

6、根据本公开的实施例,每个初始视频片段包括至少一个视频帧或针对至少一个视频帧的素材描述文本。确定与初始视频片段对应的第一向量,包括:从至少一个视频帧中确定关键视频帧;将关键视频帧编码为第一向量;或者,将至少一个视频帧中的每个视频帧编码为第三向量;将至少一个第三向量的平均向量作为第一向量;或者,将素材描述文本编码为第一向量。

7、根据本公开的实施例,根据用户输入的视频内容描述文本,生成场景提示文本,包括:根据视频内容描述文本,确定与视频内容描述文本相关的视频生成场景;获取与视频生成场景相匹配的提示模板,其中,提示模板包括针对视频生成场景的视频限制信息 ;以及根据视频内容描述文本和提示模板,生成场景提示文本。

8、根据本公开的实施例,该方法还包括:响应于检测到用户的预设交互操作,获取与预设交互操作对应的至少一个自定义视频限制信息;利用至少一个自定义视频限制信息更新提示模板;以及根据更新后的提示模板和视频内容描述文本,生成场景提示文本。

9、根据本公开的实施例,根据视频分镜文本和至少一个视频片段,生成与视频内容描述文本相匹配的目标视频,包括:按照至少一个视频分镜文本的排列顺序,将至少一个视频片段组合为目标视频。

10、根据本公开的实施例,根据视频分镜文本和至少一个视频片段,生成与视频内容描述文本相匹配的目标视频,还包括:将至少一个视频分镜文本中的每个视频分镜文本转换为初始音频片段 ;按照至少一个视频分镜文本的排列顺序,将预设平滑音频片段 和至少一个初始音频片段组合为音频数据;以及根据音频数据和至少一个视频片段,生成与视频内容描述文本相匹配的目标视频。

11、根据本公开的实施例,该方法还包括:将背景音频数据添加至音频数据中,得到更新后的音频数据;其中,背景音频数据是预先确定的;或者,背景音频数据是从用户输入的视频内容描述文本中提取的;或者,背景音频数据是基于用户的预设交互操作确定的。

12、根据本公开的实施例,根据音频数据和至少一个视频片段,生成与用户视频内容描述文本对应的目标视频,包括:对每个视频片段进行裁剪,得到与视频片段对应的音频片段的长度相匹配的目标视频片段;以及根据音频数据和至少一个目标视频片段,生成与用户视频内容描述文本对应的目标视频。

13、根据本公开的实施例,该方法还包括:生成与每个视频片段对应的视频字幕数据;以及根据音频数据、至少一个视频片段和至少一个视频字幕数据,生成与用户视频内容描述文本对应的目标视频。

14、本公开的第二方面提供了一种视频生成装置,包括:第一生成模块,用于根据用户输入的视频内容描述文本,生成场景提示文本,其中,场景提示文本用于限定视频的生成场景;第二生成模块,用于将场景提示文本输入大语言模型,输出至少一个视频分镜文本;确定模块,用于根据每个视频分镜文本的关键词,从数据库中确定与每个视频分镜文本对应的视频片段;以及第三生成模块,用于根据视频分镜文本和至少一个视频片段,生成与视频内容描述文本相匹配的目标视频。

15、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,当一个或多个处理器执行一个或多个计算机程序时以实现根据上述视频生成方法的步骤。

16、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序或指令,计算机程序或指令被处理器执行时实现根据上述视频生成方法的步骤。

17、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现根据上述视频生成方法的步骤。

18、本公开的实施例提供了一种智能化的视频生成方法,用户仅需输入视频内容描述文本,即可得到与该视频内容描述文本相匹配的目标视频,无需用户自主创作视频分镜文本、视频片段搜索和筛选、视频剪辑和后期处理,实现了端到端的内容创作和视频生成,从而提高了视频生成方式的智能性和生成效率。此外,由于用户无需自主创作视频分镜文本、剪辑视频和后期处理,因此,本公开的实施例还能够降低用户的视频创作技能要求,方便专业或非专业用户进行视频内容生成,进而提高了用户的使用体验。

本文档来自技高网...

【技术保护点】

1.一种视频生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中,所述根据每个所述视频分镜文本的关键词,从数据库确定与每个所述视频分镜文本匹配的视频片段,包括:

4.根据权利要求3所述的方法,其中,所述确定每个所述初始视频片段与所述视频分镜文本的相似度,包括:

5.根据权利要求4所述的方法,其中,每个所述初始视频片段包括至少一个视频帧或针对所述至少一个视频帧的素材描述文本;所述确定与所述初始视频数据对应的第一向量,包括:

6.根据权利要求1所述的方法,其中,所述根据用户输入的视频内容描述文本,生成场景提示文本,包括:

7.根据权利要求6所述的方法,还包括:

8.根据权利要求1所述的方法,其中,所述根据所述视频分镜文本和所述至少一个所述视频片段,生成与所述视频内容描述文本相匹配的目标视频,包括:

9.根据权利要求1所述的方法,其中,所述根据所述视频分镜文本和所述至少一个所述视频片段,生成与所述视频内容描述文本相匹配的目标视频,还包括:

10.根据权利要求9所述的方法,还包括:

11.根据权利要求9所述的方法,其中,所述根据所述音频数据和至少一个所述视频片段,生成与所述用户视频内容描述文本对应的目标视频,包括:

12.根据权利要求9所述的方法,还包括:

13.一种视频生成装置,包括:

14.一种电子设备,包括:

15.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~12中任一项所述方法的步骤。

16.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~12中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种视频生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中,所述根据每个所述视频分镜文本的关键词,从数据库确定与每个所述视频分镜文本匹配的视频片段,包括:

4.根据权利要求3所述的方法,其中,所述确定每个所述初始视频片段与所述视频分镜文本的相似度,包括:

5.根据权利要求4所述的方法,其中,每个所述初始视频片段包括至少一个视频帧或针对所述至少一个视频帧的素材描述文本;所述确定与所述初始视频数据对应的第一向量,包括:

6.根据权利要求1所述的方法,其中,所述根据用户输入的视频内容描述文本,生成场景提示文本,包括:

7.根据权利要求6所述的方法,还包括:

8.根据权利要求1所述的方法,其中,所述根据所述视频分镜文本和所述至少一个所述视频片段,生成与所述视频内容描述文本相匹配的目标视频,包...

【专利技术属性】
技术研发人员:卢玉田刘自银魏伟
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1