当前位置: 首页 > 专利查询>江西睿创科技有限公司联想新视界南昌人工智能工研院有限公司专利>正文

一种虚拟谈话数字人生成方法技术

技术编号：38160267 阅读：10 留言：0更新日期：2023-07-13 09:32

一种虚拟谈话数字人生成方法，包括：S1，基于获取的真实录像的谈话视频，通过编码器结合语音特征分离出身份特征和脸部表情特征；S2，将脸部表情特征编码到隐变量空间中，得到谈话视频中的每一帧图像对应的表情隐变量表示；S3，在得到表情隐变量表示后，通过基于注意力机制的Transformer神经网络拟合出谈话音频对应的表情隐变量；S4，解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频；S5，根据谈话视频中的音频特征从全身的身体动作库选取对应的动作组；S6，对谈话头像视频和动作组进行融合，得到全身的虚拟谈话数字人。本发明专利技术能够得到形象更加逼真、更接近现实生活中人物的谈话虚拟数字人。中人物的谈话虚拟数字人。中人物的谈话虚拟数字人。

全部详细技术资料下载

【技术实现步骤摘要】
一种虚拟谈话数字人生成方法

[0001]本专利技术涉及数据处理
，特别是涉及一种虚拟谈话数字人生成方法。

技术介绍

[0002]随着人工智能技术的迅速发展与普及，虚拟数字人技术逐渐成熟，并慢慢地进入人们的日常生活中。然而目前大量的虚拟数字人基本上以人造形象为主，该形象不是动漫角色就是对真人的模拟（存在大量肉眼可见的不真实的外表）。目前以现实生活中的真人形象设计的虚拟谈话数字人主要应用在主持人播报场景下。
[0003]传统的虚拟谈话数字人形象往往倾向于先建立数字人的三维形象，接着对该三维形象上贴上不同的纹理，再根据不同的音频条件驱动三维结构的变形，然后渲染出不同的图像。该方案往往在渲染出的图像上失真，无法达到现实生活中人物图像那般复杂的纹理结构，只对动漫形象较为简单化的形象具有较好的效果。
[0004]近年来，随着深度学习神经网络在虚拟数字人领域不断的探索应用，传统方案的保真性得到了很大程度的解决，但随之带来的超大计算量，使得传统方案无法做到实时驱动，这对人机交互应用就带来巨大挑战。另一条深度学习数字人路线为驱动图像的变形，在实时驱动和形象保真两方面取得了平衡。本专利技术沿用该路线专利技术出语音驱动下形象逼真的实时谈话虚拟数字人。

技术实现思路

[0005]本专利技术的目的在于提供一种虚拟谈话数字人生成方法，能够得到形象更加逼真、更接近现实生活中人物的谈话虚拟数字人。
[0006]一种虚拟谈话数字人生成方法，包括以下步骤：S1，基于获取的真实录像的谈话视频，通过编码器结合语...

【技术保护点】

【技术特征摘要】
1.一种虚拟谈话数字人生成方法，其特征在于，包括以下步骤：S1，基于获取的真实录像的谈话视频，通过编码器结合语音特征分离出身份特征和脸部表情特征；S2，将脸部表情特征编码到隐变量空间中，得到谈话视频中的每一帧图像对应的表情隐变量表示，所述隐变量空间是一个可学习的面部表情表征字典，代表面部运动的合集；S3，在得到表情隐变量表示后，通过基于注意力机制的Transformer神经网络拟合出谈话音频对应的表情隐变量；S4，解码器基于身份特征和谈话音频对应的表情隐变量生成谈话头像视频，通过基于图像分块的对抗网络来提升图像质量；S5，根据谈话视频中的音频特征从全身的身体动作库选取对应的动作组；S6，对谈话头像视频和动作组进行融合，得到全身的虚拟谈话数字人。2.根据权利要求1所述的虚拟谈话数字人生成方法，其特征在于，步骤S1具体包括：S11，将获取的真实录像的谈话视频分离出每一帧图像，将每一帧图像中的人像根据眼部位置及嘴部位置裁剪并对齐头像位置，以得到多个谈话头像图片；S12，对得到的谈话头像图片提取对应的音频信号特征，根据音频信号特征和对应身份的无表情头像图片获取表情掩码特征；S13，编码器根据获取的表情掩码特征分离谈话头像图片的身份特征和脸部表情特征。3.根据权利要求2所述的虚拟谈话数字人生成方法，其特征在于，步骤S2具体包括：S21，设计一个可学习的面部表情表征字典，将获取到的脸部表情特征投影到该面部表情表征字典的线性组合空间中；S22，联合优化面部表情表征字典及其线性组合系数，使面部表情表征字典能最大程度表示脸部表情特征，从而得到谈话视频中的每一帧图像对应的表情隐变量表示，进而得到包含了所有面部表情的动作合集。4.根据权利要求3所述的虚拟谈话数字人生成方法，其特征在于，步骤S3具体包括：S31，根据步骤S2获取到的每一帧图像对应的表情隐变量表示，将其聚合到谈话视频的面部表情表征...

【专利技术属性】
技术研发人员：李波，魏啸林，刘彬，陈伟峰，熊小环，赵旭，
申请(专利权)人：江西睿创科技有限公司联想新视界南昌人工智能工研院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人