本发明专利技术实施例涉及计算机视觉领域,公开了一种视频生成方法、装置、电子设备及存储介质。本发明专利技术的视频生成方法,包括:根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。应用于语音驱动视频生成的过程,使得生成的视频语音和人像严格匹配同步。成的视频语音和人像严格匹配同步。成的视频语音和人像严格匹配同步。
【技术实现步骤摘要】
视频生成方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及计算机视觉领域,特别涉及一种视频生成方法、装置、电子设备及存储介质。
技术介绍
[0002]在人工智能、计算机视觉等领域中,模拟真人原型的数字人或虚拟人已经得到了越来越多的应用。数字人或虚拟人的生成主要利用基于语音驱动的视频生成技术,通过估计出此时此刻人脸的表情动作、说话风格从而生成与原始视频一样逼真的视觉效果。目前大多通过重建3D人脸、高效的回归表情系数或2D面部关键点等处理方法实现语音驱动视频生成。
[0003]然而,上述处理方法大多没有考虑到人物的肢体动作变化,导致生成的视频死板、僵硬。另外由于对人脸进行各种解析处理,这些中间解析处理过程造成了人脸信息的损失,使得生成的视频语音和人脸图像并不完全匹配、同步。
技术实现思路
[0004]本专利技术实施方式的目的在于提供一种视频生成方法、电子设备及存储介质,使得生成的视频语音和人物图像严格同步。
[0005]为解决上述技术问题,本专利技术的实施方式提供了一种视频生成方法,包括:根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。
[0006]本专利技术的实施方式还提供了一种视频生成装置,包括:
[0007]数据处理模块,用于根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;
[0008]视频生成模块,用于将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。
[0009]本专利技术的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的视频生成方法。
[0010]本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算
机程序被处理器执行时实现上述实施方式提及的视频生成方法。
[0011]本专利技术实施方式提供的视频生成方法,利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系,通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频,获取的人像视频中包含音频特征和人体姿态向量之间的映射关系,使得语音和人物图像严格匹配、同步,实现语音驱动视频产生逼真生动的感官效果。
[0012]另外,本专利技术实施方式提供的视频生成方法,根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征,包括:根据每帧的第一音频特征和每帧对应的相邻帧的第一音频特征,获取所述目标音频数据每帧的音频特征。按照预先训练的视频生成模型对应的视频帧率提取音频特征,进一步保证语音和人物图像的精准匹配;通过将前后帧的音频特征结合作为当前帧的音频特征,保证后续视频生成的语音效果平稳连贯。
[0013]另外,本专利技术实施方式提供的视频生成方法,获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量,包括:通过图像分割算法从所述目标视频数据中提取每帧的人物图像,所述人物图像包括:人头图像和身体图像;分别从所述人头图像和所述身体图像中提取人头姿态向量和身体姿态向量,组成所述人物的人体姿态向量;其中,所述人体姿态向量(x,y,z)为视频拍摄设备拍摄时人物在场景的三维空间坐标,(x,y,z)为视频拍摄设备拍摄时人物在场景的三维空间坐标,为所述视频拍摄设备拍摄的视角方向。对人头图像和身体图像根据各自运动特点进行分开处理,使得生成的人体姿态向量更加准确,保证生成的人像视频逼真、生动。
[0014]另外,本专利技术实施方式提供的视频生成方法,将多帧人物图像合成,获取与所述目标音频数据同步的人像视频,包括:将多帧人物图像合成,获取与所述目标音频数据同步的第一人像视频;从所述目标视频数据中提取与每帧的人物图像对应的背景图像;将所述第一人像视频和所述背景图像融合,生成与所述目标音频数据同步的人像视频。在对目标视频数据处理过程中,将背景图像和人物图像分割开来,既可以生成无背景的人像视频,也可以生成某一背景下的人像视频。
[0015]另外,本专利技术实施方式提供的视频生成方法,将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频之前,还包括:获取待训练音频数据的音频特征和与所述待训练音频数据同步的待训练视频数据中人物的人体姿态向量,其中,所述人体姿态向量包括人头姿态向量和身体姿态向量;将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的人头姿态向量通过无卷积的深度全连接神经网络进行训练,获取第一视频生成模型;将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的身体姿态向量通过所述第一视频生成模型进行训练,获取视频生成模型。通过将音频特征和人头姿态向量、音频特征和身体姿态向量输入到神经网络中,分别建立音频与人头的映射关系、音频与身体的映射关系,保证语音与人像的精准匹配,使得训练的视频生成模型更符合真实场景。
附图说明
[0016]一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除
非有特别申明,附图中的图不构成比例限制。
[0017]图1是本专利技术的实施方式提供的视频生成方法的流程图;
[0018]图2是本专利技术的又一实施方式提供的视频生成方法的流程图;
[0019]图3是本专利技术的又一实施方式提供的视频生成方法的流程图;
[0020]图4是本专利技术的又一实施方式提供的视频生成方法的流程图;
[0021]图5是图4的实施方式提供的视频生成方法中步骤404的流程图;
[0022]图6是本专利技术的又一实施方式提供的视频生成方法的流程图;
[0023]图7是本专利技术的实施方式的提供的视频生成装置的结构示意图。
[0024]图8是本专利技术的实施方式的提供的电子设备的结构示意图。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。2.根据权利要求1所述的视频生成方法,其特征在于,所述根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征之前,还包括:获取待训练音频数据的音频特征和与所述待训练音频数据同步的待训练视频数据中人物的人体姿态向量,其中,所述人体姿态向量包括人头姿态向量和身体姿态向量;将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的人头姿态向量通过无卷积的深度全连接神经网络进行训练,获取第一视频生成模型;将所述待训练音频数据对应的音频特征和所述待训练视频数据对应的身体姿态向量通过所述第一视频生成模型进行训练,获取视频生成模型。3.根据权利要求1或2所述的视频生成方法,其特征在于,所述根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征,包括:根据所述预先训练的视频生成模型对应的视频帧率提取所述目标音频数据中每帧的第一音频特征,其中,所述音频数据包含N个音频帧,N为大于0的整数;对于第i帧音频帧,根据第i帧相邻的前m帧的第一音频特征和第i帧相邻的后m帧的第一音频特征,获取所述目标音频数据第i帧的音频特征,其中,0<i≤N,0<m<N。4.根据权利要求1或2所述的视频生成方法,其特征在于,所述将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,包括:将所述每帧的音频特征和所述每帧的音频特征对应的人体姿态向量输入到预先训练的视频生成模型中,获取多帧人物图像;将多帧人物图像合成,获取与所述目标音频数据同步的人像视频。5.根...
【专利技术属性】
技术研发人员:郭玉东,石彪,李廷照,户磊,
申请(专利权)人:合肥的卢深视科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。