一种服务器、显示设备及数字人生成方法技术

技术编号：41263962 阅读：16 留言：0更新日期：2024-05-11 09:21

本申请一些实施例示出一种服务器、显示设备及数字人生成方法，所述方法包括：获取设定的口型风格及情绪风格，以及确定播报文本及回复情绪；将播报文本或播报语音输入通用口型驱动模型，得到无风格口型系数序列；将口型风格及无风格口型系数序列输入风格口型驱动模型，得到风格口型系数序列；将情绪风格、回复情绪及无风格口型系数序列输入风格情绪驱动模型，得到风格情绪系数序列；基于风格口型系数序列和风格情绪系数序列生成数字人系数序列。本申请实施例通过对通用口型驱动模型、风格口型驱动模型及风格情绪驱动模型进行分模型分阶段训练，可实现口型与情绪的驱动分离，实现不同风格口型和风格情绪的组合，使得数字人情绪表达更加自然。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数字人交互，尤其涉及一种服务器、显示设备及数字人生成方法。

技术介绍

1、随着元宇宙概念和数字人概念的火爆发展，3d数字人的应用越来越广，包括3d影视、3d游戏、ar(augmented reality，增强现实)/vr(virtual reality，虚拟现实)、虚拟办公、虚拟社交等场景。但目前3d数字人级别以普通播放为主，缺乏情绪化的分量，更缺乏情绪可控的方法，即使有的3d数字人带有一定的情绪，也是利用面捕设备捕获的，根本无法推广应用，严重影响3d数字人的应用范围。

技术实现思路

1、本申请一些实施例提供了一种服务器、显示设备及数字人生成方法，通过将通用口型驱动模型、风格口型驱动模型及风格情绪驱动模型分模型分阶段训练，可实现口型与情绪的驱动分离，在应用时可以实现不同风格口型和风格情绪的组合，使得数字人情绪表达及风格迁移更加自然。

2、第一方面，本申请一些实施例中提供一种服务器，被配置为：

3、获取用户设定的口型风格及情绪风格，以及确定播报文本及回复情绪；

4、本文档来自技高网...

【技术保护点】

1.一种服务器，其特征在于，被配置为：

2.根据权利要求1所述的服务器，其特征在于，所述回复情绪包括情绪类型及情绪强度，所述情绪类型包括基本情绪和复合情绪，所述复合情绪为多种基本情绪复合后的情绪，所述服务器执行将所述情绪风格、所述回复情绪及所述无风格口型系数序列输入风格情绪驱动模型，得到风格情绪系数序列，被进一步配置为：

3.根据权利要求2所述的服务器，其特征在于，所述风格情绪驱动模型基于情绪强度数据训练得到，所述服务器执行生成情绪强度数据，被进一步配置为：

4.根据权利要求1所述的服务器，其特征在于，所述服务器执行将所述情绪风格、所述回复情绪及所述无...

【技术特征摘要】

1.一种服务器，其特征在于，被配置为：

4.根据权利要求1所述的服务器，其特征在于，所述服务器执行将所述情绪风格、所述回复情绪及所述无风格口型系数序...

【专利技术属性】
技术研发人员：刘韶，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人