一种基于语音驱动人工智能的交互数字人合成方法技术

技术编号：43359233 阅读：23 留言：0更新日期：2024-11-19 17:44

本发明专利技术涉及数字人合成技术领域，具体公开了一种基于语音驱动人工智能的交互数字人合成方法，所述方法包括：S1：通过数据采集单元采集不同的渠道和平台提交的语音数据，并对输入的音频原始数据进行预处理，包括语音过滤、语音特征数值化，通过基于Audio2DHuman深度学习模型，通过输入的语音信号提取出音频特征，预测面部关键点运动权重和手势、头部动画参数，进而生成与数字人语言播报内容精确同步的面部表情及流畅手势、头部动作，实现对数字人的高效驱动与自然交互，从而实现将语音中蕴含的语义和情感表达同步映射到虚拟人3D模型面部、手势、肢体动作渲染中，从而极大地增强了数字人情感的真实性和专业性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人合成，具体为一种基于语音驱动人工智能的交互数字人合成方法。

技术介绍

1、随着科技的不断发展，数字人生成技术已成为人机交互、虚拟现实和增强现实等领域的研究热点，虚拟数字人领域的技术研究和理论创新不断取得突破，虚拟数字人应用范围正在逐渐扩大，展现出广阔的发展前景。

2、虚拟数字人应用这一领域的发展历程可以大致分为三个具有代表性的阶段：1.0时代，在这个初级阶段，数字人的创作主要依赖于二维手绘或计算机生成动画cg技术逐帧剪辑最终汇成视频，这一过程制作周期长、成本高；2.0时代，随着混合现实技术的崛起，动作捕捉技术使得真人动作能够实时映射至3d数字人模型，然而，这一阶段对硬件设备的要求更为苛刻，导致成本和实施难度同步增加；3.0时代，人工智能技术的融入，为虚拟数字人技术带来了新的变革，通过音频内容识别和声学特征的机器学习方法对齐数字人的面部表情，实现高度逼真的驱动效果。

3、尽管如此，目前的数字人技术仍然主要侧重于语音与面部表情的对齐，而如何将语音中蕴含的语义和情感表达同步映射到虚拟人3d模型面部、...

【技术保护点】

1.一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述S1中对输入的音频原始数据进行预处理的过程包括：

3.根据权利要求2所述的一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述S2中的Audio2DHuman合成算法的网络结构及训练数据集包括：

4.根据权利要求3所述的一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述模型训练损失计算单元的计算过程包括：

5.根据权利要求4所述的一种基于语音驱动人工智能的交...

【技术特征摘要】

1.一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述s1中对输入的音频原始数据进行预处理的过程包括：

3.根据权利要求2所述的一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述s2中的audio2dhuman合成算法的网络结构及训练数据集包括：

4.根据权利要求3所述的一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述模型训练损失计算单元的计算过程包括：

5.根据权利要求4所述的一种基于语音驱动人工智能的交互数字人合成方法，其特征在于，所述训练数据...

【专利技术属性】
技术研发人员：彭成东，杨诺，王勇，梅江顺，董昌武，陈仁明，
申请(专利权)人：合肥云诊信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人