虚拟形象视频的生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38619006 阅读:11 留言:0更新日期:2023-08-31 18:24
本发明专利技术公开了一种虚拟形象视频的生成方法、装置、电子设备和存储介质,该方法包括:获取待播报的目标文本,根据目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集;将目标音频中各目标音素与各样本音素进行比对,根据比对结果从动作变化数据集中得到与各目标音素匹配的目标动作变化数据集;驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,情绪标签与目标文本关联;将目标音频与动作表情视频融合,生成目标虚拟形象播报目标文本的目标视频,以此通过待播报的文本和相应的动作变化数据集即可生成目标虚拟形象的播报视频,从而实现了更加高效的生成虚拟形象视频。形象视频。形象视频。

【技术实现步骤摘要】
虚拟形象视频的生成方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,更具体地,涉及一种虚拟形象视频的生成方法、装置、电子设备和存储介质。

技术介绍

[0002]随着技术的发展和社会的需求,越来越多的虚拟形象被应用于日常生活场景中,例如新闻播报、聊天交互等,因此需要为虚拟形象配置面部表情、肢体语言等参数以提升虚拟形象与用户的交互体验。
[0003]现有技术中,通过真人动作捕捉、用户命令驱动以及人工配置动作或特定场景下的算法动作生成等配置方法生成虚拟形象视频,由于过于依赖人工操作以及特定场景下的配置,造成虚拟形象视频的生成效率低。
[0004]因此,如何更加高效的生成虚拟形象视频,是目前有待解决的技术问题。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本申请实施例提出了一种虚拟形象视频的生成方法、装置、电子设备和存储介质,用以更加高效的生成虚拟形象视频。
[0007]第一方面,提供一种虚拟形象视频的生成方法,所述方法包括:获取待播报的目标文本,根据所述目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。
[0008]第二方面,提供一种虚拟形象视频的生成装置,所述装置包括:生成模块,用于获取待播报的目标文本,根据所述目标文本生成目标音频;获取模块,用于获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;比对模块,用于将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动模块,用于驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;融合模块,用于将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报
所述目标文本的目标视频。
[0009]第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的虚拟形象视频的生成方法。
[0010]第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的虚拟形象视频的生成方法。
[0011]通过应用以上技术方案,获取待播报的目标文本,根据目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,动作变化数据为目标虚拟形象在播报各样本音素时产生的动作变化数据;将目标音频中各目标音素与各样本音素进行比对,根据比对结果从动作变化数据集中得到与各目标音素匹配的目标动作变化数据集;驱动目标虚拟形象执行与目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,情绪标签与目标文本关联;将目标音频与动作表情视频融合,生成目标虚拟形象播报目标文本的目标视频,以此通过待播报的文本和相应的动作变化数据集即可生成目标虚拟形象的播报视频,从而实现了更加高效的生成虚拟形象视频。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1示出了本专利技术实施例提出的一种虚拟形象视频的生成方法的流程示意图;
[0014]图2示出了本专利技术实施例中确定情绪标签的流程示意图;
[0015]图3示出了本专利技术另一实施例提出的一种虚拟形象视频的生成方法的流程示意图;
[0016]图4示出了本专利技术实施例提出的一种虚拟形象视频的生成装置的结构示意图;
[0017]图5示出了本专利技术实施例提出的一种电子设备的结构示意图。
具体实施方式
[0018]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]需要说明的是,本领域技术人员在考虑说明书及实践这里公开的专利技术后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
[0020]应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并
且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
[0021]本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
[0022]本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0023]本申请实施例提供一种虚拟形象视频的生成方法,如图1所示,该方法包括以下步骤:
[0024]步骤S101,获取待播报的目标文本,根据所述目标文本生成目标音频。
[0025]本实施例中,待播报的目标文本可以是用户上传或从其他服务器获取的文本数据,后续使数字人对目标文本的内容进行播报。在获取目标文本后,根据目标文本生成目标音频,后续将目标音频作为数字人视频中数字人发出的声音。具体的,可基于语音合成算法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟形象视频的生成方法,其特征在于,所述方法包括:获取待播报的目标文本,根据所述目标文本生成目标音频;获取与目标虚拟形象对应的动作变化数据集,其中,所述动作变化数据集包括与样本语音中各样本音素对应的动作变化数据,所述动作变化数据为所述目标虚拟形象在播报各所述样本音素时产生的动作变化数据;将所述目标音频中各目标音素与各所述样本音素进行比对,根据比对结果从所述动作变化数据集中得到与各所述目标音素匹配的目标动作变化数据集;驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频,其中,所述情绪标签与所述目标文本关联;将所述目标音频与所述动作表情视频融合,生成所述目标虚拟形象播报所述目标文本的目标视频。2.如权利要求1所述的方法,其特征在于,在驱动所述目标虚拟形象执行与所述目标动作变化数据集对应的动作和执行与情绪标签匹配的表情,得到动作表情视频之前,所述方法还包括:基于预训练双向编码表示模型确定所述目标文本中融合了语言先验知识的文本向量;将所述文本向量输入目标线性分类器,确定所述文本向量中的多个情绪类别;确定所述文本向量在各所述情绪类别中的概率,并将各所述情绪类别中最大概率的情绪类别作为所述情绪标签。3.如权利要求2所述的方法,其特征在于,在基于预训练双向编码表示模型确定所述目标文本中融合了语言先验知识的文本向量之前,所述方法还包括:获取深度自注意力网络;向所述深度自注意力网络输入大于预设数据量的无监督数据,并通过掩蔽语言模型和下句预测训练所述深度自注意力网络,训练完成后得到所述预训练双向编码表示模型。4.如权利要求1所述的方法,其特征在于,在得到动作表情视频之后,所述方法还包括:根据所述目标音频的语速对所述动作表情视频的播放速度进行调整,并在所述动作表情视频中存在异常视频帧时,对所述异常视频帧进行平滑补帧处理,其中,所述异常视频帧为满足预设衔接异常判定条件的相邻视频帧。5.如权利要求1所述的方法,其特征在于,所述获取与目标虚拟形象对应的动作变化数据集,包括:根据所述目标虚拟形象的形象描述参数确定所述目标虚拟形象所属的形象类型;根据所述形象类型和预设对应关系确定所述动作变化数据集,所述预设对应关系为不同预设形象类型和不同预设动作变化数据集之间的对应关系。6.如权利要求5...

【专利技术属性】
技术研发人员:沈中熙钱晓亮
申请(专利权)人:厦门黑镜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1