视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32233985 阅读:14 留言:0更新日期:2022-02-09 17:38
本发明专利技术实施例提供一种视频生成方法、装置、电子设备及存储介质,该方法包括:将目标音频文件划分为N个音频子片段,N为大于或者等于2的整数;在与目标音频文件关联的多个图像片段中,获取N个音频子片段中的每个音频子片段分别对应的目标图像片段,目标图像片段为与音频子片段匹配度最高的图像片段;根据N个音频子片段,对N个目标图像片段进行对应修改;根据N个音频子片段和修改后的目标图像片段,生成目标视频。本发明专利技术通过为音频子片段筛选出更为匹配的图像片段,并对筛选出的图像片段进行修改,可以实现减小修改幅度,提升修改效率,且可使得修改后的图像片段与音频子片段更加契合,提升了目标视频的播放效果。提升了目标视频的播放效果。提升了目标视频的播放效果。

【技术实现步骤摘要】
视频生成方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种视频生成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,人们可以根据需求依据音频对图像序列进行修改,以将修改后的图像序列配合音频播放。相比于单独播放音频,图像序列配合音频进行播放的方式,可以增强趣味性,优化用户的视听体验。
[0003]现有技术中,在根据音频修改图像序列时,需要根据音频对现有图像序列做局部修改,音频与图像序列中某帧图像的对应关系是根据音频和图像序列的播放顺序配置的,如果音频期望的画面与原图像对应的画面差距太大,则修改幅度较大,容易出现修改不到位,修改后的效果不理想的问题。
[0004]由此可见,现有技术中,在基于音频进行图像修改时,容易修改不到位,导致修改后的图像序列与音频的匹配效果不佳。

技术实现思路

[0005]本专利技术实施例提供了一种视频生成方法、装置、电子设备及存储介质,以解决现有技术中在基于音频进行图像修改时,存在的容易修改不到位,导致修改后的图像序列与音频的匹配效果不佳的问题。
[0006]第一方面,本专利技术实施例提供了一种视频生成方法,所述方法包括:
[0007]将目标音频文件划分为N个音频子片段,N为大于或者等于2的整数;
[0008]在与所述目标音频文件关联的多个图像片段中,获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段,所述目标图像片段为与所述音频子片段匹配度最高的图像片段;/>[0009]根据所述N个音频子片段,对N个目标图像片段进行对应修改;
[0010]根据所述N个音频子片段和修改后的N个所述目标图像片段,生成目标视频。
[0011]第二方面,本专利技术实施例提供了一种视频生成装置,所述装置包括:
[0012]划分模块,用于将目标音频文件划分为N个音频子片段,N为大于或者等于2的整数;
[0013]获取模块,用于在与所述目标音频文件关联的多个图像片段中,获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段,所述目标图像片段为所述音频子片段匹配度最高的图像片段;
[0014]修改模块,用于根据所述N个音频子片段,对N个目标图像片段进行对应修改;
[0015]生成模块,用于根据所述N个音频子片段和修改后的N个所述目标图像片段,生成目标视频。
[0016]第三方面,本专利技术实施例提供了一种电子设备,包括处理器、存储器及存储在所述
存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的视频生成方法的步骤。
[0017]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的视频生成方法的步骤。
[0018]本专利技术实施例技术方案,通过将目标音频文件切分为N个音频子片段,获得每个音频子片段对应的匹配度最高的目标图像片段,根据音频子片段修改对应的目标图像片段,并根据N个音频子片段以及修改后的目标图像片段生成目标视频,可以实现为音频子片段筛选出更为匹配的图像片段并对筛选出的图像片段进行修改,可以实现减小修改幅度,提升修改效率,且可使得修改后的图像片段与音频子片段更加契合,提升了目标视频的播放效果。
附图说明
[0019]图1表示本专利技术实施例提供的视频生成方法的示意图;
[0020]图2表示本专利技术实施例提供的表征向量预测模型的工作原理示意图;
[0021]图3表示本专利技术实施例提供的依据音频内容进行图像修改的一具体实例示意图;
[0022]图4表示本专利技术实施例提供的视频生成方法的一实施过程示意图;
[0023]图5表示本专利技术实施例提供的视频生成装置的示意图;
[0024]图6表示本专利技术实施例提供的一种电子设备结构示意图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本专利技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
[0027]在本专利技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。
[0028]本专利技术实施例提供了一种应用于电子设备的视频生成方法,参见图1所示,所述方法包括:
[0029]步骤101、将目标音频文件划分为N个音频子片段,N为大于或者等于2的整数。
[0030]电子设备针对目标音频文件,提取目标音频文件的语音信号特征,根据目标音频文件的语音信号特征获取目标音频文件对应的音频帧序列,通过划分音频帧序列(划分音频帧序列即为划分目标音频文件),可以获得N个音频子片段。
[0031]其中,N个音频子片段对应的帧数可以相等,也可以不等,帧数相等,即为音频子片
段对应的时长相等,帧数不等,即为音频子片段对应的时长不相等。例如,可以将一个总帧数为100帧的音频帧序列划分为帧数均为10帧的10个音频子片段,每个音频子片段对应的时长相等,也可以切分为2个长度为5帧和9个长度为10帧的音频子片段。由此可见,不同音频子片段对应的时长可以相等也可以不等。
[0032]步骤102、在与所述目标音频文件关联的多个图像片段中,获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段,所述目标图像片段为与所述音频子片段匹配度最高的图像片段。
[0033]目标图像片段对应的时间长度可以大于或者等于匹配的音频子片段对应的时间长度,针对目标图像片段对应的时间长度大于匹配的音频子片段对应的时间长度的情况,目标图像片段对应的时间长度与匹配的音频子片段对应的时间长度之差需要在预设的误差范围内。例如,预设的误差范围的极值为50ms时,则目标图像片段对应的时间长度最多可以比匹配的音频子片段对应的时间长度长50ms。其中,预设的误差范围可以由用户自行配置。
[0034]其中,多个图像片段的图像内容与目标音频文件关联,和/或,多个图像片段与目标音频文件形成有绑定关系,即,多个图像片段与目标音频文件之间的关联可以为:多个图像片段的图像内容与目标音频文件的音频内容具有关联性,和/或,多个图像片段与目标音频文件预先建立有绑定关系。如,多个图像片段与目标音频文件对应于同一类型视频文件,多个图像片段与目标音频文件本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:将目标音频文件划分为N个音频子片段,N为大于或者等于2的整数;在与所述目标音频文件关联的多个图像片段中,获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段,所述目标图像片段为与所述音频子片段匹配度最高的图像片段;根据所述N个音频子片段,对N个所述目标图像片段进行对应修改;根据所述N个音频子片段和修改后的N个所述目标图像片段,生成目标视频。2.根据权利要求1所述的方法,其特征在于,所述获取所述N个音频子片段中的每个所述音频子片段分别对应的目标图像片段,包括:针对所述N个音频子片段中的每个所述音频子片段,获取所述音频子片段对应的预测图像表征向量;针对所述多个图像片段中的每个所述图像片段,获取所述图像片段对应的图像表征向量;根据N个所述预测图像表征向量以及所述多个图像片段对应的多个图像表征向量,获取每个所述音频子片段分别对应的目标图像片段。3.根据权利要求2所述的方法,其特征在于,所述根据N个所述预测图像表征向量以及所述多个图像片段对应的多个图像表征向量,获取每个所述音频子片段分别对应的目标图像片段,包括:针对每个所述预测图像表征向量,在所述多个图像片段对应的多个图像表征向量中,根据向量距离确定与当前预测图像表征向量匹配度最高的目标图像表征向量;将所述目标图像表征向量对应的图像片段,确定为当前预测图像表征向量对应的音频子片段的目标图像片段。4.根据权利要求2所述的方法,其特征在于,所述针对所述N个音频子片段中的每个所述音频子片段,获取所述音频子片段对应的预测图像表征向量,包括:将所述N个音频子片段输入表征向量预测模型,获取每个所述音频子片段对应的预测图像表征向量;所述针对所述多个图像片段中的每个所述图像片段,获取所述图像片段对应的图像表征向量,包括:将所述多个图像片段输入表征向量预测模型,获取每个所述图像片段对应的图像表征向量。5.根据权利要求1所述的方法,其特征在于,所述目标图像片段包括目标人物,所述根...

【专利技术属性】
技术研发人员:王愈李健武卫东陈明
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1