一种基于用户提示的音频驱动数字人生成系统及方法技术方案

技术编号：43364722 阅读：27 留言：0更新日期：2024-11-19 17:47

本发明专利技术提出一种基于用户提示的音频驱动数字人生成系统及方法，其中系统包括：数据库模块、音频特征提取模块、AIGC生成人脸画像模块、Audioface模块、基于音频驱动的人脸图像模块和基于音频驱动的数字人动作生成模块。本发明专利技术实现了基于用户提示的音频驱动数字人生成，根据用户的输入提示实现内容生成，赋予了数字人高度的个性化特征和自然性行为表现，使得本发明专利技术具有重要的应用价值和前景，随着相关领域的不断发展和完善，本发明专利技术能为数字娱乐、虚拟现实、人机交互等领域带来更加丰富的体验和应用场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于用户提示的音频驱动数字人生成系统及方法，属于人工智能。

技术介绍

1、随着科技的飞速进步和人工智能技术的迅猛发展，数字人产业正迎来前所未有的发展契机。数字人以其多元化的形态已经深入渗透到影视娱乐、市场营销、电商直播以及金融服务等各个领域。它们不仅重塑了商业生态和用户体验，更成为企业提升服务创新、提高效率的重要工具。在推动产业数字化转型的进程中，数字人展现出了巨大的应用价值和发展潜力。

2、数字人的生成是人工智能领域的一个热们研究课题。它的核心任务是生成高度真实且自然的数字人模型，这些模型在形态、动作、表情及语音表达上均能达到近乎人类的逼真效果。

3、目前，在数字人生成
中，主要存在两种广为使用的方式。第一种是基于静态图片进行数字人的构建。这种方式通常利用深度学习和图像处理技术，通过分析和提取静态图片中的面部特征、纹理信息以及姿态等关键数据，从而生成具有相似外貌特征的数字人模型。尽管这种方法能够较好地还原静态状态下的面部细节，但在处理动态表情和动作时可能会显得相对局限。另一种方式则是基于...

【技术保护点】

1.一种基于用户提示的音频驱动数字人生成系统，其特征在于，所述一种基于用户提示的音频驱动数字人生成系统的结构包括：

2.根据权利要求1所述的一种基于用户提示的音频驱动数字人生成系统，其特征在于，所述AIGC生成人脸画像模块包括第一生成器和第一判别器；

3.根据权利要求1所述的一种基于用户提示的音频驱动数字人生成系统，其特征在于，所述Audioface模块包括第二生成器和第二判别器；

4.一种基于用户提示的音频驱动数字人生成方法，应用于权利要求1-3任意一项所述的一种基于用户提示的音频驱动数字人生成系统，其特征在于，包括：