视频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30366935 阅读:26 留言:0更新日期:2021-10-16 17:37
本发明专利技术实施例涉及计算机视觉领域,公开了一种视频生成方法、装置、电子设备及存储介质。本发明专利技术的视频生成方法,包括:根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。应用于语音驱动视频生成的过程,使得生成的视频语音和人像严格匹配同步。成的视频语音和人像严格匹配同步。成的视频语音和人像严格匹配同步。

【技术实现步骤摘要】
视频生成方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及计算机视觉领域,特别涉及一种视频生成方法、装置、电子设备及存储介质。

技术介绍

[0002]在人工智能、计算机视觉等领域中,模拟真人原型的数字人或虚拟人已经得到了越来越多的应用。数字人或虚拟人的生成主要利用基于语音驱动的视频生成技术,通过估计出此时此刻人脸的表情动作、说话风格从而生成与原始视频一样逼真的视觉效果。目前大多通过重建3D人脸、高效的回归表情系数或2D面部关键点等处理方法实现语音驱动视频生成。
[0003]然而,上述处理方法大多没有考虑到人物的肢体动作变化,导致生成的视频死板、僵硬。另外由于对人脸进行各种解析处理,这些中间解析处理过程造成了人脸信息的损失,使得生成的视频语音和人脸图像并不完全匹配、同步。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种视频生成方法、电子设备及存储介质,使得生成的视频语音和人物图像严格同步。
[0005]为解决上述技术问题,本专利技术的实施方式提供了一种视频生成方法,包括:根据预先训练的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。2.根据权利要求1所述的视频生成方法,其特征在于,所述根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征之前,还包括:获取待训练音频数据的音频特征和与所述待训练音频数据同步的待训练视频数据中人物的人体姿态向量,其中,所述人体姿态向量包括人头姿态向量和身体姿态向量;将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的人头姿态向量通过无卷积的深度全连接神经网络进行训练,获取第一视频生成模型;将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的身体姿态向量通过所述第一视频生成模型进行训练,获取视频生成模型。3.根据权利要求1或2所述的视频生成方法,其特征在于,所述根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征,包括:根据所述预先训练的视频生成模型对应的视频帧率提取所述目标音频数据中每帧的第一音频特征,其中,所述音频数据包含N个音频帧,N为大于0的整数;对于第i帧音频帧,根据第i帧相邻的前m帧的第一音频特征和第i帧相邻的后m帧的第一音频特征,获取所述目标音频数据第i帧的音频特征,其中,0<i≤N,0<m<N。4.根据权利要求1或2所述的视频生成方法,其特征在于,所述将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,包括:将所述每帧的音频特征和所述每帧的音频特征对应的人体姿态向量输入到预先训练的视频生成模型中,获取多帧人物图像;将多帧人物图像合成,获取与所述目标音频数据同步的人像视频。5.根...

【专利技术属性】
技术研发人员:郭玉东石彪李廷照户磊
申请(专利权)人:合肥的卢深视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1