一种虚拟谈话数字人生成方法技术

技术编号:38160267 阅读:10 留言:0更新日期:2023-07-13 09:32
一种虚拟谈话数字人生成方法,包括:S1,基于获取的真实录像的谈话视频,通过编码器结合语音特征分离出身份特征和脸部表情特征;S2,将脸部表情特征编码到隐变量空间中,得到谈话视频中的每一帧图像对应的表情隐变量表示;S3,在得到表情隐变量表示后,通过基于注意力机制的Transformer神经网络拟合出谈话音频对应的表情隐变量;S4,解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频;S5,根据谈话视频中的音频特征从全身的身体动作库选取对应的动作组;S6,对谈话头像视频和动作组进行融合,得到全身的虚拟谈话数字人。本发明专利技术能够得到形象更加逼真、更接近现实生活中人物的谈话虚拟数字人。中人物的谈话虚拟数字人。中人物的谈话虚拟数字人。

【技术实现步骤摘要】
一种虚拟谈话数字人生成方法


[0001]本专利技术涉及数据处理
,特别是涉及一种虚拟谈话数字人生成方法。

技术介绍

[0002]随着人工智能技术的迅速发展与普及,虚拟数字人技术逐渐成熟,并慢慢地进入人们的日常生活中。然而目前大量的虚拟数字人基本上以人造形象为主,该形象不是动漫角色就是对真人的模拟(存在大量肉眼可见的不真实的外表)。目前以现实生活中的真人形象设计的虚拟谈话数字人主要应用在主持人播报场景下。
[0003]传统的虚拟谈话数字人形象往往倾向于先建立数字人的三维形象,接着对该三维形象上贴上不同的纹理,再根据不同的音频条件驱动三维结构的变形,然后渲染出不同的图像。该方案往往在渲染出的图像上失真,无法达到现实生活中人物图像那般复杂的纹理结构,只对动漫形象较为简单化的形象具有较好的效果。
[0004]近年来,随着深度学习神经网络在虚拟数字人领域不断的探索应用,传统方案的保真性得到了很大程度的解决,但随之带来的超大计算量,使得传统方案无法做到实时驱动,这对人机交互应用就带来巨大挑战。另一条深度学习数字人路线为驱动图像的变形,在实时驱动和形象保真两方面取得了平衡。本专利技术沿用该路线专利技术出语音驱动下形象逼真的实时谈话虚拟数字人。

技术实现思路

[0005]本专利技术的目的在于提供一种虚拟谈话数字人生成方法,能够得到形象更加逼真、更接近现实生活中人物的谈话虚拟数字人。
[0006]一种虚拟谈话数字人生成方法,包括以下步骤:S1,基于获取的真实录像的谈话视频,通过编码器结合语音特征分离出身份特征和脸部表情特征;S2,将脸部表情特征编码到隐变量空间中,得到谈话视频中的每一帧图像对应的表情隐变量表示,所述隐变量空间是一个可学习的面部表情表征字典,代表面部运动的合集;S3,在得到表情隐变量表示后,通过基于注意力机制的Transformer神经网络拟合出谈话音频对应的表情隐变量;S4,解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频,通过基于图像分块的对抗网络来提升图像质量;S5,根据谈话视频中的音频特征从全身的身体动作库选取对应的动作组;S6,对谈话头像视频和动作组进行融合,得到全身的虚拟谈话数字人。
[0007]根据本专利技术提供的虚拟谈话数字人生成方法,利用编码器自适应分离出身份特征与脸部表情特征,相对于人工标注的特征点表情或脸部运动肌肉特征,具有更丰富的语义表达能力;本专利技术将高维的脸部表情特征编码到低维的隐变量空间中,能够在最少地牺牲
表示精度的情况下,压缩表情特征维度,为利用谈话音频拟合出表情隐变量提供了更好的条件;然后解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频,再根据谈话视频中的音频特征从动作库选取对应的动作组,并对谈话头像视频和动作组进行融合,得到虚拟谈话数字人,使得本专利技术能够得到形象更加逼真、更接近现实生活中人物的谈话虚拟数字人,具有实时性,形象逼真,音唇同步率高的特点。
[0008]此外,上述的虚拟谈话数字人生成方法,还具有以下技术特征:进一步的,步骤S1具体包括:S11,将获取的真实录像的谈话视频分离出每一帧图像,将每一帧图像中的人像根据眼部位置及嘴部位置裁剪并对齐头像位置,以得到多个谈话头像图片;S12,对得到的谈话头像图片提取对应的音频信号特征,根据音频信号特征和对应身份的无表情头像图片获取表情掩码特征;S13,编码器根据获取的表情掩码特征分离谈话头像图片的身份特征和脸部表情特征。
[0009]进一步的,步骤S2具体包括:S21,设计一个可学习的面部表情表征字典,将获取到的脸部表情特征投影到该面部表情表征字典的线性组合空间中;S22,联合优化面部表情表征字典及其线性组合系数,使面部表情表征字典能最大程度表示脸部表情特征,从而得到谈话视频中的每一帧图像对应的表情隐变量表示,进而得到包含了所有面部表情的动作合集。
[0010]进一步的,步骤S3具体包括:S31,根据步骤S2获取到的每一帧图像对应的表情隐变量表示,将其聚合到谈话视频的面部表情表征字典空间中作为训练时的监督;S32,获取谈话视频中的每一帧图像的对应的音频信号特征,设计一个基于注意力机制的Transformer神经网络,其输入为每一帧和其前面所有的图像对齐的音频信号特征,输出为这一帧图像的面部表情表征字典空间的拟合结果,迭代训练该神经网络,使拟合结果与步骤S31中的结果误差达到最小;S33,将谈话视频中的谈话音频输入到循环神经网络中,获取到谈话音频的表情隐变量,在测试时,将任意一段音频输入到神经网络中,获取到该音频未在面部表情表征字典空间中的表情隐变量。
[0011]进一步的,步骤S4具体包括:S41,根据步骤S3的谈话音频对应的表情隐变量,结合步骤S2的面部表情表征字典重建高维表情特征;S42,解码器将步骤S41得到的高维表情特征结合步骤S1获取到的身份特征,生成出说话者在一段谈话音频下的对应视频;S43,采用基于图像块的对抗网络,提升说话人图像的图像质量,并基于提升图像质量后的说话人图像生成谈话头像视频。
[0012]进一步的,步骤S5具体包括:S51,拍摄人体躯干运动视频,将运动视频分离出每一帧运动图像,并从每一帧运动图像中分离出头部与躯干,建立人体驱干运动动作库;
S52,分析谈话视频中的每一帧图像的对应的音频信号特征,根据音频信号特征中的时长特征、说话的语气情绪特征,从人体驱干运动动作库中选取对应的动作组。
[0013]进一步的,步骤S6具体包括:S61,将步骤S4获取到的谈话头像视频和步骤S5获取到的动作组对齐头部位置和躯干位置,将谈话头像视频对应的图片和动作组对应的图片进行融合,得到拼接图片;S62,对拼接图片做拼接后处理,利用图像混合技术对拼接位置的色差和位置偏差进行消除,从而得到全身的虚拟谈话数字人。
附图说明
[0014]图1为本专利技术实施例的虚拟谈话数字人生成方法的流程图。
具体实施方式
[0015]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]本专利技术采用编码器结合语音信号特征分离头像图片的身份特征和脸部表情特征,比起传统人工设计的脸部表情运动具有更高的语义表达能力;接着将高维表情特征编码到低维的隐变量空间,使得后续通过语音信号特征来拟合表情特征空间成为可能;设计循环神经网络架构,输入语音信号特征来拟合表情隐变量空间,在最大程度上减少拟合误差;解码器将上述取得的身份特征和音频信号拟合出的表情隐变量空间重新恢复出谈话数字头像视频,进一步利用图像块对抗网络提高生成的视频质量;建立躯干运动动作库,分析语音信号从动作库中取得最符合的动作序列;对齐拼接谈话头像视频与躯干动作序列并利用图像混合技术混合拼接位置,使得人眼难以区分,进一步产生栩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟谈话数字人生成方法,其特征在于,包括以下步骤:S1,基于获取的真实录像的谈话视频,通过编码器结合语音特征分离出身份特征和脸部表情特征;S2,将脸部表情特征编码到隐变量空间中,得到谈话视频中的每一帧图像对应的表情隐变量表示,所述隐变量空间是一个可学习的面部表情表征字典,代表面部运动的合集;S3,在得到表情隐变量表示后,通过基于注意力机制的Transformer神经网络拟合出谈话音频对应的表情隐变量;S4,解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频,通过基于图像分块的对抗网络来提升图像质量;S5,根据谈话视频中的音频特征从全身的身体动作库选取对应的动作组;S6,对谈话头像视频和动作组进行融合,得到全身的虚拟谈话数字人。2.根据权利要求1所述的虚拟谈话数字人生成方法,其特征在于,步骤S1具体包括:S11,将获取的真实录像的谈话视频分离出每一帧图像,将每一帧图像中的人像根据眼部位置及嘴部位置裁剪并对齐头像位置,以得到多个谈话头像图片;S12,对得到的谈话头像图片提取对应的音频信号特征,根据音频信号特征和对应身份的无表情头像图片获取表情掩码特征;S13,编码器根据获取的表情掩码特征分离谈话头像图片的身份特征和脸部表情特征。3.根据权利要求2所述的虚拟谈话数字人生成方法,其特征在于,步骤S2具体包括:S21,设计一个可学习的面部表情表征字典,将获取到的脸部表情特征投影到该面部表情表征字典的线性组合空间中;S22,联合优化面部表情表征字典及其线性组合系数,使面部表情表征字典能最大程度表示脸部表情特征,从而得到谈话视频中的每一帧图像对应的表情隐变量表示,进而得到包含了所有面部表情的动作合集。4.根据权利要求3所述的虚拟谈话数字人生成方法,其特征在于,步骤S3具体包括:S31,根据步骤S2获取到的每一帧图像对应的表情隐变量表示,将其聚合到谈话视频的面部表情表征...

【专利技术属性】
技术研发人员:李波魏啸林刘彬陈伟峰熊小环赵旭
申请(专利权)人:江西睿创科技有限公司联想新视界南昌人工智能工研院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1