一种视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35479641 阅读:17 留言:0更新日期:2022-11-05 16:29
本发明专利技术实施例提供了一种视频生成方法、装置、电子设备及存储介质,将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中目标对象的面部特征,作为目标面部特征;基于各目标视频帧中的目标面部特征,确定待处理视频的表情特征向量;针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的目标节拍特征向量;计算表情特征向量与目标节拍特征向量的相似度,作为待处理视频与该待处理音频的匹配度;对待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;目标音频与待处理视频的匹配度最大。基于此,可以提高视频的生成效率。率。率。

【技术实现步骤摘要】
一种视频生成方法、装置、电子设备及存储介质


[0001]本专利技术涉及互联网
,特别是涉及一种视频生成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的快速发展,用户能够获取的资源也越来越多,例如,用户可以在客户端中浏览视频(例如,短视频)。短视频是指时长较短(例如,2分钟)的视频,用户在制作短视频时,可以对拍摄的短视频进行剪辑、添加特效,以及添加文本等编辑操作,进而将编辑后的短视频上传至客户端,以供其他用户浏览。
[0003]相关技术中,用户可以选取一段音乐作为需要拍摄的短视频的背景音乐,在拍摄短视频的过程中,人物根据背景音乐的节拍变化,多次调整自身的表情,以使得拍摄的短视频中人物的表情变化与背景音乐的节拍变化同步。
[0004]可见,上述过程中,需要人物多次调整自身的表情以配合背景音乐的节拍变化,用户操作繁琐,会降低视频的生成效率。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种视频生成方法、装置、电子设备及存储介质,以提高视频的生成效率。具体技术方案如下:
[0006]在本专利技术实施的第一方面,首先提供了一种视频生成方法,所述方法包括:
[0007]将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征;其中,所述面部识别模型为基于样本视频帧,以及表示所述样本视频帧中样本对象的面部特征的特征标签进行训练得到的;
[0008]基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量;其中,所述表情特征向量中的元素与所述待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中所述目标对象的表情特征;所述表情特征向量表示:所述待处理视频中所述目标对象的表情特征随时间变化的幅度;
[0009]针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量;其中,所述目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;所述目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;所述节拍点预测模型为基于样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的;
[0010]计算所述表情特征向量与所述目标节拍特征向量的相似度,作为所述待处理视频与该待处理音频的匹配度;
[0011]对所述待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;
其中,所述目标音频与所述待处理视频的匹配度最大。
[0012]可选的,所述目标面部特征包括所述目标对象的面部中至少一个器官的器官状态;
[0013]所述基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量,包括:
[0014]针对每一目标视频帧,获取表示该目标视频帧中所述目标对象的面部中至少一个器官的器官状态的器官状态值;基于获取到的器官状态值,确定该目标视频帧对应的表情特征值;基于各目标视频帧各自对应的表情特征值,生成所述待处理视频的表情特征向量;其中,所述表情特征向量中除所述目标视频帧外的其他视频帧对应的表情特征值为预设数值。
[0015]可选的,所述基于获取到的器官状态值,确定该目标视频帧对应的表情特征值,包括:
[0016]在所述器官状态值为多个的情况下,计算各器官状态值的加权和,作为该目标视频帧对应的表情特征值。
[0017]可选的,在所述针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量之前,所述方法还包括:
[0018]针对每一目标视频帧,在预设的器官状态与情绪标签的对应关系中,确定该目标视频帧中目标对象的面部中至少一个器官的器官状态对应的情绪标签,作为该目标视频帧对应的情绪标签;基于各目标视频帧各自对应的情绪标签,确定所述待处理视频的情绪标签;针对每一预设音频,计算该预设音频的情绪标签和所述待处理视频的情绪标签的相似度;基于各预设音频确定待处理音频,其中,所述待处理音频的情绪标签与所述待处理视频的情绪标签的相似度大于相似度阈值。
[0019]可选的,所述基于各预设音频确定待处理音频,包括:
[0020]从各预设音频中,确定对应的情绪标签与所述待处理视频的情绪标签的相似度大于所述相似度阈值的预设音频,作为备选音频;针对每一备选音频,如果该备选音频的时长与所述待处理视频的时长相同,确定该备选音频为待处理音频;如果该备选音频的时长大于所述待处理视频的时长,从该备选音频中提取与所述待处理视频的时长相同的音频片段,得到待处理音频。
[0021]可选的,在所述将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征之前,所述方法还包括:
[0022]对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧,作为目标视频帧;
[0023]或者,
[0024]对待处理视频中的各视频帧进行目标检测,得到包含所述目标对象的面部图像的视频帧;对所述待处理视频中包含所述目标对象的面部图像的视频帧进行采样,得到目标视频帧。
[0025]可选的,所述面部识别模型的训练过程包括:
[0026]获取包含所述样本对象的面部图像的样本视频帧,以及表示所述样本视频帧中所述样本对象的面部特征的特征标签;将所述样本视频帧输入至初始结构的面部识别模型,得到所述样本视频帧中所述样本对象的面部特征,作为预测面部特征;计算表示所述特征标签与所述预测面部特征的差异的第一损失函数值;基于所述第一损失函数值对所述初始结构的面部识别模型的模型参数进行调整,直至达到第一预设收敛条件,得到训练好的面部识别模型。
[0027]可选的,所述节拍点预测模型的训练过程包括:
[0028]获取样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签;基于初始结构的节拍点预测模型对所述样本音频进行处理,得到包含所述样本音频中的各音频帧是否为节拍点的概率的预测节拍标签;计算表示所述样本节拍标签与所述预测节拍标签的差异的第二损失函数值;基于所述第二损失函数值对所述初始结构的节拍点预测模型的模型参数进行调整,直至达到第二预设收敛条件,得到训练好的节拍点预测模型。
[0029]在本专利技术实施的第二方面,还提供了一种视频生成装置,所述装置包括:
[0030]面部特征预测模块,用于将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征;其中,所述面部识别模型为基于样本视频帧,以及表示所述样本视频帧中样本对象的面部特征的特征标签进行训练得到的;
[0031]表情特征向量确定模块,用于基于各目标视频帧中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型,确定该目标视频帧中所述目标对象的面部特征,作为目标面部特征;其中,所述面部识别模型为基于样本视频帧,以及表示所述样本视频帧中样本对象的面部特征的特征标签进行训练得到的;基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量;其中,所述表情特征向量中的元素与所述待处理视频中的各视频帧一一对应;一个元素表示:对应的视频帧中所述目标对象的表情特征;所述表情特征向量表示:所述待处理视频中所述目标对象的表情特征随时间变化的幅度;针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量;其中,所述目标节拍特征向量中的元素与该待处理音频中的音频帧一一对应,一个元素表示:对应的音频帧是否为节拍点;所述目标节拍特征向量表示:该待处理音频的节拍随时间变化的幅度;所述节拍点预测模型为基于样本音频,以及表示所述样本音频中的各音频帧是否为节拍点的样本节拍标签进行训练得到的;计算所述表情特征向量与所述目标节拍特征向量的相似度,作为所述待处理视频与该待处理音频的匹配度;对所述待处理视频与各待处理音频中的目标音频进行合成处理,得到目标视频;其中,所述目标音频与所述待处理视频的匹配度最大。2.根据权利要求1所述的方法,其特征在于,所述目标面部特征包括所述目标对象的面部中至少一个器官的器官状态;所述基于各目标视频帧中的目标面部特征,确定所述待处理视频的表情特征向量,包括:针对每一目标视频帧,获取表示该目标视频帧中所述目标对象的面部中至少一个器官的器官状态的器官状态值;基于获取到的器官状态值,确定该目标视频帧对应的表情特征值;基于各目标视频帧各自对应的表情特征值,生成所述待处理视频的表情特征向量;其中,所述表情特征向量中除所述目标视频帧外的其他视频帧对应的表情特征值为预设数值。3.根据权利要求2所述的方法,其特征在于,所述基于获取到的器官状态值,确定该目标视频帧对应的表情特征值,包括:在所述器官状态值为多个的情况下,计算各器官状态值的加权和,作为该目标视频帧对应的表情特征值。4.根据权利要求2所述的方法,其特征在于,在所述针对每一待处理音频,基于预先训练的节拍点预测模型对该待处理音频进行处理,得到该待处理音频的节拍特征向量,作为目标节拍特征向量之前,所述方法还包括:针对每一目标视频帧,在预设的器官状态与情绪标签的对应关系中,确定该目标视频帧中目标对象的面部中至少一个器官的器官状态对应的情绪标签,作为该目标视频帧对应的情绪标签;
基于各目标视频帧各自对应的情绪标签,确定所述待处理视频的情绪标签;针对每一预设音频,计算该预设音频的情绪标签和所述待处理视频的情绪标签的相似度;基于各预设音频确定待处理音频,其中,所述待处理音频的情绪标签与所述待处理视频的情绪标签的相似度大于相似度阈值。5.根据权利要求4所述的方法,其特征在于,所述基于各预设音频确定待处理音频,包括:从各预设音频中,确定对应的情绪标签与所述待处理视频的情绪标签的相似度大于所述相似度阈值的预设音频,作为备选音频;针对每一备选音频,如果该备选音频的时长与所述待处理视频的时长相同,确定该备选音频为待处理音频;如果该备选音频的时长大于所述待处理视频的时长,从该备选音频中提取与所述待处理视频的时长相同的音频片段,得到待处理音频。6.根据权利要求1所述的方法,其特征在于,在所述将待处理视频中包含目标对象的面部图像的目标视频帧输入至预先训练的面部识别模型...

【专利技术属性】
技术研发人员:史培培周勇
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1