一种服务器、显示设备及数字人交互方法技术

技术编号：40872548 阅读：4 留言：0更新日期：2024-04-08 16:40

本申请一些实施例示出一种服务器、显示设备及数字人交互方法，所述方法包括：接收显示设备发送用户输入的语音数据；识别语音数据，以获取语音文本；对语音文本进行语义理解，以获取语音数据对应的领域意图；基于领域意图确定播报语音以及数字人形象参数，数字人形象参数用于装饰数字人的形象，和/或，增加数字人的动作；基于数字人形象参数和播报语音生成数字人数据；将数字人数据发送至显示设备，以使显示设备根据所述数字人数据播放数字人的图像及语音。本申请实施例通过识别出显示设备上传的语音数据的领域意图，基于该领域意图确定数字人形象参数，以达到改变数字人形象的目的，提升语音交互的趣味性体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数字人交互，尤其涉及一种服务器、显示设备及数字人交互方法。

技术介绍

1、随着人工智能技术的不断发展，数字人已经成为了一种备受关注的技术。数字人是指由计算机程序和算法生成的虚拟人物，可以模拟人类的语言、行为、情感等特征，具有高度的智能化和交互性。目前，数字人技术主要应用于游戏、教育、医疗、金融等领域。

2、数字人技术更注重面部表情、唇形和播报文本的联动，导致数字人形象展示较为单一，仅替换传统意义的语音助手形象，由用户选用可供选择的数字人形象，该形象适用于所有场景。数字人形象展示缺少趣味性。

技术实现思路

1、本申请一些实施例提供了一种服务器、显示设备及数字人交互方法，通过识别出显示设备上传的语音数据的领域意图，基于该领域意图确定数字人形象参数，以达到改变数字人形象的目的，提升语音交互的趣味性体验。

2、第一方面，本申请一些实施例中提供一种服务器，被配置为：

3、接收显示设备发送用户输入的语音数据；

4、识别所述语音数据，以获取语音文本；

5、对所述语音文本进行语义理解，以获取所述语音数据对应的领域意图；

6、基于所述领域意图确定播报语音，以及基于所述领域意图确定数字人形象参数，所述数字人形象参数用于生成数字人的图像，和/或，生成数字人的动作；

7、基于所述数字人形象参数和所述播报语音生成数字人数据；

8、将所述数字人数据发送至所述显示设备，以使所述显示设备根据所述数字人数据播放数字人的图像及语音。

9、在一些实施例中，所述服务器，被配置为：

10、确定所述语音数据对应的用户情感类型；

11、所述服务器执行基于所述领域意图确定数字人形象参数，被进一步配置为：

12、基于所述用户情感类型及所述领域意图确定数字人形象参数。

13、在一些实施例中，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

14、基于所述语音数据确定所述语音数据对应的用户情感类型。

15、在一些实施例中，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

16、基于所述语音文本确定所述语音数据对应的用户情感类型。

17、在一些实施例中，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

18、接收显示设备上传采集到的用户视频，所述用户视频包括用户面部图像；

19、分析所述用户面部图像，以确定所述语音数据对应的用户情感类型。

20、在一些实施例中，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

21、接收显示设备上传采集到的用户生理信号，所述用户生理信号包括心率、皮肤电导包和/或脑电波；

22、基于所述用户生理信号确定所述语音数据对应的用户情感类型。

23、在一些实施例中，所述服务器执行基于所述领域意图确定数字人形象参数，被进一步配置为：

24、在数字人形象映射表中查找所述领域意图对应的数字人形象标识，所述数字人形象映射表用于表征领域意图与数字人形象标识的对应关系；

25、在数字人定义表中查找所述数字人形象标识对应的数字人形象参数，所述数字人定义表用于表征数字人形象标识与数字人形象参数的对应关系，所述数字人形象参数包括装饰参数和动作参数。

26、在一些实施例中，所述服务器执行基于所述用户情感类型及所述领域意图确定数字人形象参数，被进一步配置为：

27、在数字人形象映射表中查找所述用户情感类型及所述领域意图对应的数字人形象标识，所述数字人形象映射表用于表征领域意图、用户情感类型与数字人形象标识的对应关系；

28、在数字人定义表中查找所述数字人形象标识对应的数字人形象参数，所述数字人定义表用于表征数字人形象标识与数字人形象参数的对应关系，所述数字人形象参数包括装饰参数和动作参数。

29、第二方面，本申请一些实施例中提供一种显示设备，包括：

30、显示器，被配置为显示用户界面；

31、通信器，被配置为与服务器进行数据通信；

32、控制器，被配置为：

33、接收用户输入的语音数据；

34、将所述语音数据通过所述通信器发送至服务器；

35、接收所述服务器基于所述语音数据下发的数字人数据；

36、根据所述数字人数据播放数字人的图像及语音。

37、第三方面，本申请一些实施例中提供一种数字人交互方法，包括：

38、接收显示设备发送用户输入的语音数据；

39、识别所述语音数据，以获取语音文本；

40、对所述语音文本进行语义理解，以获取所述语音数据对应的领域意图；

41、基于所述领域意图确定播报语音，以及基于所述领域意图确定数字人形象参数，所述数字人形象参数用于生成数字人的图像，和/或，生成数字人的动作；

42、基于所述数字人形象参数和所述播报语音生成数字人数据；

43、将所述数字人数据发送至所述显示设备，以使所述显示设备根据所述数字人数据播放数字人的图像和语音。

44、本申请的一些实施例提供一种服务器、显示设备及数字人交互方法。接收显示设备发送用户输入的语音数据；识别语音数据，以获取语音文本；对语音文本进行语义理解，以获取语音数据对应的领域意图；基于领域意图确定播报语音以及数字人形象参数，数字人形象参数用于生成数字人的图像，和/或，生成数字人的动作；基于数字人形象参数和播报语音生成数字人数据；将数字人数据发送至显示设备，以使显示设备根据所述数字人数据播放数字人的图像和语音。本申请实施例通过识别出显示设备上传的语音数据的领域意图，基于该领域意图确定数字人形象参数，以达到改变数字人形象的目的，提升语音交互的趣味性体验。

本文档来自技高网...

【技术保护点】

1.一种服务器，其特征在于，被配置为：

2.根据权利要求1所述的服务器，其特征在于，所述服务器，被配置为：

3.根据权利要求2所述的服务器，其特征在于，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

4.根据权利要求2所述的服务器，其特征在于，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

5.根据权利要求2所述的服务器，其特征在于，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

6.根据权利要求2所述的服务器，其特征在于，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

7.根据权利要求1所述的服务器，其特征在于，所述服务器执行基于所述领域意图确定数字人形象参数，被进一步配置为：

8.根据权利要求2所述的服务器，其特征在于，所述服务器执行基于所述用户情感类型及所述领域意图确定数字人形象参数，被进一步配置为：

9.一种显示设备，其特征在于，包括：

10.一种数字人交互方法，其特征在于，包括：>...

【技术特征摘要】

1.一种服务器，其特征在于，被配置为：

2.根据权利要求1所述的服务器，其特征在于，所述服务器，被配置为：

3.根据权利要求2所述的服务器，其特征在于，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

4.根据权利要求2所述的服务器，其特征在于，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

5.根据权利要求2所述的服务器，其特征在于，所述服务器执行确定所述语音数据对应的用户情感类型，被进一步配置为：

【专利技术属性】
技术研发人员：王建君，冯瑞平，张立泽，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人