虚拟人像视频的生成方法及装置制造方法及图纸

技术编号:34911186 阅读:21 留言:0更新日期:2022-09-15 06:59
本发明专利技术提供一种虚拟人像视频的生成方法及装置,所述虚拟人像视频的生成方法,包括:从样本数据库中获取与目标音频对应的M个样本三音素;基于M个样本三音素,分别从样本数据库中获取与M个样本三音素对应的P个样本图像,样本图像包括人像的嘴部区域信息,人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联;基于P个样本图像和目标音频合成目标虚拟人像视频,目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。本发明专利技术的虚拟人像视频的生成方法,合成效率高且合成的视频效果生动形象,具有较高的分辨率,从而有助于提高智能服务领域的服务效率和服务质量。高智能服务领域的服务效率和服务质量。高智能服务领域的服务效率和服务质量。

【技术实现步骤摘要】
虚拟人像视频的生成方法及装置


[0001]本专利技术涉及虚拟视频合成
,尤其涉及一种虚拟人像视频的生成方法及装置。

技术介绍

[0002]随着人工智能产品在生活中的渗透率越来越高,虚拟视频作为人机自然交互的最直观、最有效以及体验最好的途径方法,虚拟视频包括但不限于虚拟偶像主播、虚拟员工、虚拟助手、虚拟管家以及虚拟驾驶员等。相关技术中,主要采用动态扫描技术或采用深度学习GAN网络驱动技术生成虚拟视频,第一种方法需要将采集到的光影效果或是照片数据通过人脸特征识别、空间变换组件、模型重建组件、骨骼变形组件以及纹理融合组件等搭配合成多模态3D模型,然后通过面部表情驱动,对建模要求高且生成的形象生硬;第二种方法需要采集大量的训练数据来对模型进行训练,然后基于模型与给定音频驱动唇形,不仅GAN训练难度大,而且生成的图像分辨率低。以上两种方法均会导致最终合成的虚拟视频的效果不佳。

技术实现思路

[0003]本专利技术提供一种虚拟人像视频的生成方法及装置,用以解决现有技术中虚拟视频合成效率低且合成效果较差的缺陷,实现高效且高质量的虚拟视频合成。
[0004]本专利技术提供一种虚拟人像视频的生成方法,包括:
[0005]从样本数据库中获取与目标音频对应的M个样本三音素,所述样本数据库中包括N个样本三音素,以及与所述N个样本三音素对应的Q个样本图像;
[0006]基于所述M个样本三音素,分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,所述样本图像包括人像的嘴部区域信息,所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;
[0007]基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。
[0008]根据本专利技术提供的一种虚拟人像视频的生成方法,所述从样本数据库中获取与目标音频对应的M个样本三音素,包括:
[0009]将所述目标音频与所述目标音频对应的目标文本进行时间对齐;
[0010]将所述目标文本转化为目标三音素序列;
[0011]切分所述目标三音素序列,生成多个目标三音素;
[0012]从所述样本数据库中匹配得到与所述目标三音素对应的样本三音素。
[0013]根据本专利技术提供的一种虚拟人像视频的生成方法,所述分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,包括:
[0014]获取所述目标三音素在所述目标音频中的时长信息;
[0015]从所述样本数据库中匹配得到与所述样本三音素对应的多个样本图像;
[0016]基于所述目标三音素在所述目标音频中的时长信息调整所述多个样本图像对应的时长信息。
[0017]根据本专利技术提供的一种虚拟人像视频的生成方法,所述基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,包括:
[0018]基于所述P个样本三音素中相邻的两个样本三音素对应的样本图像,生成所述两个样本三音素对应的样本图像之间的过渡图像;
[0019]基于所述样本图像对应的样本三音素在所述目标音频中的时间信息,拼接所述样本图像和所述过渡图像,生成目标图像序列;
[0020]合成所述目标图像序列和所述目标音频,生成所述目标虚拟人像视频。
[0021]根据本专利技术提供的一种虚拟人像视频的生成方法,在所述从样本数据库中获取与目标音频对应的M个样本三音素之前,所述方法包括:
[0022]获取样本视频,所述样本视频包括样本图像序列和样本音频;
[0023]基于所述样本音频,获取与所述样本音频对应的样本三音素序列;
[0024]对所述样本图像序列和所述样本三音素序列进行时间对齐,生成时间序列;
[0025]基于所述时间序列,建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系;
[0026]将所述样本图像、与所述样本图像对应的样本三音素以及所述样本图像与所述样本图像对应的样本三音素之间的映射关系存储至所述样本数据库。
[0027]根据本专利技术提供的一种虚拟人像视频的生成方法,所述基于所述时间序列,建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系,包括:
[0028]基于所述样本图像中人像的嘴部区域信息,生成所述样本图像中人像的嘴部区域坐标;
[0029]建立所述嘴部区域坐标与其所在的样本图像所对应的样本三音素之间的映射关系。
[0030]本专利技术还提供一种虚拟人像视频的生成装置,包括:
[0031]第一处理模块,用于从样本数据库中获取与目标音频对应的M个样本三音素,所述样本数据库中包括N个样本三音素,以及与所述N个样本三音素对应的Q个样本图像;
[0032]第二处理模块,用于基于所述M个样本三音素,分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,所述样本图像包括人像的嘴部区域信息,所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;
[0033]第三处理模块,用于基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚拟人像视频的生成方法。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算
机程序被处理器执行时实现如上述任一种所述虚拟人像视频的生成方法。
[0036]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述虚拟人像视频的生成方法。
[0037]本专利技术提供的虚拟人像视频的生成方法及装置,通过建立三音素、嘴部区域坐标以及文本信息之间的对应关系,以能够从样本数据库中获取与目标音频对应的样本三音素所对应的样本图像,对获取的样本图像和目标音频进行合成以生成目标虚拟人像视频,无需对大量数据进行重复训练即可进行视频合成,合成效率高;且合成的视频效果生动形象,具有较高的分辨率,有助于提高智能服务领域的服务效率和服务质量。
附图说明
[0038]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本专利技术提供的虚拟人像视频的生成方法的流程示意图;
[0040]图2是本专利技术提供的虚拟人像视频的生成装置的结构示意图;
[0041]图3是本专利技术提供的电子设备的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟人像视频的生成方法,其特征在于,包括:从样本数据库中获取与目标音频对应的M个样本三音素,所述样本数据库中包括N个样本三音素,以及与所述N个样本三音素对应的Q个样本图像;基于所述M个样本三音素,分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,所述样本图像包括人像的嘴部区域信息,所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。2.根据权利要求1所述的虚拟人像视频的生成方法,其特征在于,所述从样本数据库中获取与目标音频对应的M个样本三音素,包括:将所述目标音频与所述目标音频对应的目标文本进行时间对齐;将所述目标文本转化为目标三音素序列;切分所述目标三音素序列,生成多个目标三音素;从所述样本数据库中匹配得到与所述目标三音素对应的样本三音素。3.根据权利要求2所述的虚拟人像视频的生成方法,其特征在于,所述分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,包括:获取所述目标三音素在所述目标音频中的时长信息;从所述样本数据库中匹配得到与所述样本三音素对应的多个样本图像;基于所述目标三音素在所述目标音频中的时长信息调整所述多个样本图像对应的时长信息。4.根据权利要求1

3任一项所述的虚拟人像视频的生成方法,其特征在于,所述基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,包括:基于所述P个样本三音素中相邻的两个样本三音素对应的样本图像,生成所述两个样本三音素对应的样本图像之间的过渡图像;基于所述样本图像对应的样本三音素在所述目标音频中的时间信息,拼接所述样本图像和所述过渡图像,生成目标图像序列;合成所述目标图像序列和所述目标音频,生成所述目标虚拟人像视频。5.根据权利要求1

3任一项所述的虚拟人像视频的生成方法,其特征在于,在所述从样本数据库中获取与目标音频对应的M个样本三音素之前,所述方法包括:获取样...

【专利技术属性】
技术研发人员:赵超肖立鹏
申请(专利权)人:北京沃丰时代数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1