一种服务器、显示设备及数字人交互方法技术

技术编号：40876508 阅读：2 留言：0更新日期：2024-04-08 16:45

本申请一些实施例示出一种服务器、显示设备及数字人交互方法，所述方法包括：在接收到显示设备发送用户输入的语音数据后，获取用户图像数据，以及根据语音数据确定播报文本；将用户图像数据映射到三维空间，得到形象系数；确定情感系数序列；基于播报文本、形象系数和情感系数序列生成数字人图像数据；基于播报文本生成播报语音；将播报语音和数字人图像数据发送至显示设备，以使显示设备基于数字人图像数据显示数字人图像并播放播报语音。本申请实施例通过将获取到的用户图像数据映射到三维空间，在三维空间可根据高拟人化的情感编辑实现对表情的可控调节，使数字人表情更加拟真人化。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数字人交互，尤其涉及一种服务器、显示设备及数字人交互方法。

技术介绍

1、数字人是指由计算机程序和算法生成的虚拟人物，可以模拟人类的语言、行为、情感等特征，具有高度的智能化和交互性。行业推出的数字人已经应用到文旅、金融、主播、游戏、影视娱乐等多个行业。不同的企业针对业务落地需求都有自己的一套虚拟数字人流程技术，但企业均因资源、效果等问题只针对面向企业的客户推出深度定制化方案，对于消费级面向个人客户未有成熟可靠的定制化方案。

2、在面向个人客户的数字人定制场景下，同一台服务器需要支撑成千上万不同用户，形象每时每刻都在切换。采用早期预制视频帧并将视频帧保存至内存中，以便用户加载播放，但是个人客户数量极为庞大，内存无法支撑成千上万用户视频帧数据同时加载。采用临时读磁盘方式，耗时问题严重影响用户交互体验。采用基于关键点控制单帧图像的驱动可以有助于实现面向个人客户的数字人定制。

3、但基于关键点控制单帧图像的驱动技术中，基于二维中间态的关键点特征表达能力有限，无法实现数字人表情完全拟真人化，表达较为僵硬。

技术实现思路

1、本申请一些实施例提供了一种服务器、显示设备及数字人交互方法，通过将获取到的用户图像数据映射到三维空间，在三维空间可根据高拟人化的情感编辑实现对表情的可控调节，使数字人表情更加拟真人化。

2、第一方面，本申请一些实施例中提供一种服务器，被配置为：

3、在接收到显示设备发送用户输入的语音数据后，获取用户图像数据，以及根

4、将所述用户图像数据映射到三维空间，得到形象系数；

5、确定情感系数序列；

6、基于所述播报文本、所述形象系数和所述情感系数序列生成数字人图像数据；

7、基于所述播报文本生成播报语音；

8、将所述播报语音和所述数字人图像数据发送至所述显示设备，以使所述显示设备基于所述数字人图像数据显示数字人图像并播放所述播报语音。

9、在一些实施例中，所述服务器执行基于所述播报文本、所述形象系数和所述情感系数序列生成数字人图像数据，被进一步配置为：

10、将播报文本输入语音驱动模型，得到嘴部动作系数序列；

11、基于所述形象系数、所述情感系数序列和所述嘴部动作系数序列生成数字人图像数据。

12、在一些实施例中，所述服务器执行基于所述播报文本、所述形象系数和所述情感系数序列生成数字人图像数据，被进一步配置为：

13、确定头部动作系数序列；

14、基于所述播报文本、所述形象系数、所述情感系数序列和所述头部动作系数序列生成数字人图像数据。

15、在一些实施例中，所述服务器执行确定情感系数序列，被进一步配置为：

16、确定所述播报文本对应的情感变化序列；

17、根据所述播报文本的文本长度确定所述播报语音的时长；

18、基于所述情感变化序列及所述时长确定所述情感系数序列。

19、在一些实施例中，所述服务器执行确定所述播报文本对应的情感变化序列，被进一步配置为：

20、将所述语音数据输入语音情感分类模型中，得到情感特征向量；

21、将所述情感特征向量输入映射模型中，得到情感变化序列。

22、在一些实施例中，所述服务器执行基于所述情感变化序列及所述时长确定所述情感系数序列，被进一步配置为：

23、如果所述时长小于或等于目标值，则在所述情感变化序列中移除目标数量的情感系数，以获取所述情感系数序列，所述目标值为情感变化序列显示的总时长，所述目标数量由所述时长、目标值和帧率确定；

24、如果所述时长大于目标值，则在所述情感变化序列中插入目标数量的情感系数，以获取所述情感系数序列。

25、在一些实施例中，所述服务器执行确定头部动作系数序列，被进一步配置为：

26、确定所述播报文本对应的头部动作变化序列；

27、根据所述播报文本的文本长度确定所述播报语音的时长；

28、基于所述头部动作变化序列及所述时长确定所述头部动作系数序列。

29、在一些实施例中，所述服务器执行基于所述头部动作变化序列及所述时长确定所述头部动作系数序列，被进一步配置为：

30、如果所述时长小于或等于目标值，则在所述头部动作变化序列中移除目标数量的头部动作系数，以获取所述头部动作系数序列，所述目标值为头部动作变化序列显示的总时长，所述目标数量由所述时长、目标值和帧率确定；

31、如果所述时长大于目标值，则在所述头部动作变化序列中插入目标数量的头部动作系数，以获取所述头部动作系数序列。

32、第二方面，本申请一些实施例中提供一种显示设备，包括：

33、显示器，被配置为显示用户界面；

34、通信器，被配置为与服务器进行数据通信；

35、控制器，被配置为：

36、接收用户输入的语音数据；

37、将所述语音数据通过所述通信器发送至服务器；

38、接收所述服务器基于所述语音数据下发的数字人图像数据及播报语音；

39、播放所述播报语音并基于所述数字人图像数据显示数字人图像。

40、第三方面，本申请一些实施例中提供一种数字人交互方法，包括：

41、在接收到显示设备发送用户输入的语音数据后，获取用户图像数据，以及根据所述语音数据确定播报文本；

42、将所述用户图像数据映射到三维空间，得到形象系数；

43、确定情感系数序列；

44、基于所述播报文本、所述形象系数和所述情感系数序列生成数字人图像数据；

45、基于所述播报文本生成播报语音；

46、将所述播报语音和所述数字人图像数据发送至所述显示设备，以使所述显示设备基于所述数字人图像数据显示数字人图像并播放所述播报语音。

47、本申请的一些实施例提供一种服务器、显示设备及数字人交互方法。在接收到显示设备发送用户输入的语音数据后，获取用户图像数据，以及根据所述语音数据确定播报文本；将所述用户图像数据映射到三维空间，得到形象系数；确定情感系数序列；基于所述播报文本、所述形象系数和所述情感系数序列生成数字人图像数据；基于所述播报文本生成播报语音；将所述播报语音和所述数字人图像数据发送至所述显示设备，以使所述显示设备基于所述数字人图像数据显示数字人图像并播放所述播报语音。本申请实施例通过将获取到的用户图像数据映射到三维空间，在三维空间可根据高拟人化的情感编辑实现对表情的可控调节，使数字人表情更加拟真人化。

本文档来自技高网...

【技术保护点】

1.一种服务器，其特征在于，被配置为：

2.根据权利要求1所述的服务器，其特征在于，所述服务器执行基于所述播报文本、所述形象系数和所述情感系数序列生成数字人图像数据，被进一步配置为：

3.根据权利要求1所述的服务器，其特征在于，所述服务器执行基于所述播报文本、所述形象系数和所述情感系数序列生成数字人图像数据，被进一步配置为：

4.根据权利要求1所述的服务器，其特征在于，所述服务器执行确定情感系数序列，被进一步配置为：

5.根据权利要求4所述的服务器，其特征在于，所述服务器执行确定所述播报文本对应的情感变化序列，被进一步配置为：

6.根据权利要求4所述的服务器，其特征在于，所述服务器执行基于所述情感变化序列及所述时长确定所述情感系数序列，被进一步配置为：

7.根据权利要求3所述的服务器，其特征在于，所述服务器执行确定头部动作系数序列，被进一步配置为：

8.根据权利要求7所述的服务器，其特征在于，所述服务器执行基于所述头部动作变化序列及所述时长确定所述头部动作系数序列，被进一步配置为：

10.一种数字人交互方法，其特征在于，包括：

...

【技术特征摘要】

1.一种服务器，其特征在于，被配置为：

4.根据权利要求1所述的服务器，其特征在于，所述服务器执行确定情感系数序列，被进一步配置为：

5.根据权利要求4所述的服务器，其特征在于，所述服务器执行确定所述播报文本...

【专利技术属性】
技术研发人员：李绪送，付爱国，杨善松，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人