一种服务器、显示设备及语音交互方法技术

技术编号：40872556 阅读：47 留言：0更新日期：2024-04-08 16:40

本申请一些实施例示出一种服务器、显示设备及语音交互方法，所述方法包括：接收显示设备发送用户输入的语音数据；识别语音数据对应的语音文本；基于语音文本确定情感类型以及情感原因；根据语音文本和情感类型确定回复情感和回复策略；将语音文本、情感类型、情感原因、回复情感和回复策略输入到生成式预训练Transformer模型，得到播报文本；根据播报文本合成播报语音；将播报语音发送至显示设备，以使显示设备播放播报语音。本申请实施例基于语音文本、情感类型、情感原因、回复情感和回复策略生成有针对性的回复，不仅关注对话内容的相关性，同时还注重沟通策略和情感状态，带给用户生动而有情感的对话交互体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音交互，尤其涉及一种服务器、显示设备及语音交互方法。

技术介绍

1、传统的对话机器人重点关注的是“智商”，常见的表现形式为智能语音助手，语音助手与手机、音箱、电视、电脑等设备配套，后端的主要技术是任务型对话理解。另一种常见的对话机器人是聊天机器人，聊天机器人一般建立在几千万真实的对话语料库基础上，通过理解对话的语境语义，具备一定的情感计算能力，实现开放域自然的人机交互。此外还有很多客服聊天机器人，在受限领域内与客户进行基本的沟通并回复产品和服务相关的问题。

2、以上传统对话机器人的主要研究点围绕在如何正确理解用户意图，在很多领域均有较为成熟的产品落地。然而，很多时候这些对话机器人虽然已经拥有很高的智商，但是对情感的处理却没有到位，经常会产生合乎逻辑但是情感上却很冷漠的回复，影响用户体验。

3、对话机器人一般都不具备情感处理的能力，或者是对情感处理的不够精准，大部分有情感处理能力的对话机器人也仅仅是在闲聊领域内，通过情感分类模型简单判断用户情感，或者基于情感对话数据集训练回复生成模型，相对来说情感计算与对话技术的结合还比较浅层，处于初步的情感对话阶段，对用户体验的改善不够明显。

技术实现思路

1、本申请一些实施例提供了一种服务器、显示设备及语音交互方法，基于语音文本、情感类型、情感原因、回复情感和回复策略生成有针对性的回复，不仅关注对话内容的相关性，同时还注重沟通策略和情感状态，带给用户生动而有情感的对话交互体验。

2、第一方面，本申请

3、接收显示设备发送用户输入的语音数据；

4、识别所述语音数据对应的语音文本；

5、基于所述语音文本确定情感类型以及情感原因；

6、根据所述语音文本和所述情感类型确定回复情感和回复策略；

7、将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本；

8、根据所述播报文本合成播报语音；

9、将所述播报语音发送至所述显示设备，以使所述显示设备播放所述播报语音。

10、在一些实施例中，所述情感类型包括一级情感和二级情感，所述二级情感为所述一级情感结合事件、心理状态或情感强烈程度的情感信息，所述服务器执行基于所述语音文本确定情感类型以及情感原因，被进一步配置为：

11、确定一级情感；

12、将所述一级情感及所述语音文本输入二级情感分类器中，得到二级情感；

13、从所述语音文本中抽取情感原因。

14、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

15、在映射表中查找与所述一级情感或所述二级情感对应的回复情感和回复策略，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系。

16、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

17、获取用户画像或系统人设，所述用户画像是基于用户历史语音对话确定用户的性格标签，所述系统人设是用户设置的性格标签；

18、获取所述用户画像或系统人设对应的映射表；

19、在所述映射表中查找与所述一级情感或所述二级情感对应的回复情感和回复策略，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系。

20、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

21、获取业务需求标识；

22、如果所述业务需求标识为预设值，则在映射表中查找与所述一级情感或所述二级情感对应的回复情感和回复策略，所述业务需求标识为预设值表征用户的业务需求已完成，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系；

23、如果所述业务需求标识不为预设值，则确定回复情感为预设情感，回复策略为预设策略，所述业务需求标识不为预设值表征用户的业务需求未完成。

24、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

25、在所述映射表中查找与所述一级情感或所述二级情感对应的待选回复情感和待选回复策略，所述映射表包括所述一级情感、所述二级情感、回复情感和回复策略的映射关系；

26、确定所述待选回复情感中与所述上次语音文本对应回复情感最相近的回复情感为本次语音文本的回复情感；

27、确定本次语音文本的回复情感对应的回复策略为本次语音文本的回复策略。

28、在一些实施例中，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

29、将所述语音文本及一级情感输入第一线性层分类器，得到回复情感；

30、将所述语音文本及二级情感输入第二线性层分类器，得到回复策略。

31、在一些实施例中，所述服务器执行将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本，被进一步配置为：

32、将所述语音文本、所述二级情感、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本。

33、第二方面，本申请一些实施例中提供一种显示设备，包括：

34、显示器，被配置为显示用户界面；

35、通信器，被配置为与服务器进行数据通信；

36、控制器，被配置为：

37、接收用户输入的语音数据；

38、将所述语音数据通过所述通信器发送至服务器；

39、接收所述服务器基于所述语音数据下发的数字人图像数据及播报语音；

40、播放所述播报语音并基于所述数字人图像数据显示数字人图像。

41、第三方面，本申请一些实施例中提供一种语音交互方法，包括：

42、接收显示设备发送用户输入的语音数据；

43、识别所述语音数据对应的语音文本；

44、基于所述语音文本确定情感类型以及情感原因；

45、根据所述语音文本和所述情感类型确定回复情感和回复策略；

46、将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练transformer模型，得到播报文本；

47、根据所述播报文本合成播报语音；

48、将所述播报语音发送至所述显示设备，以使所述显示设备播放所述播报语音。

49、本申请的一些实施例提供一种服务器、显示设备及语音交互方法。接收显示设备发送用户输入的语音数据；识别所述语音数据对应的语音文本；基于所述语音文本确定本文档来自技高网...

【技术保护点】

1.一种服务器，其特征在于，被配置为：

2.根据权利要求1所述的服务器，其特征在于，所述情感类型包括一级情感和二级情感，所述一级情感为情感类别，所述二级情感为所述一级情感结合事件、心理状态或情感强烈程度的情感信息，所述服务器执行基于所述语音文本确定情感类型以及情感原因，被进一步配置为：

3.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

4.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

5.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

6.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

7.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

8.根据权利要求2所述的服务器，其特征在于，所述服务器执行将所述语音文本、所述情感类型、所述情感原因、所述回复情感和所述回复策略输入到生成式预训练Transformer模型，得到播报文本，被进一步配置为：

9.一种显示设备，其特征在于，包括：

10.一种语音交互方法，其特征在于，包括：

...

【技术特征摘要】

1.一种服务器，其特征在于，被配置为：

3.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

4.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音文本和所述情感类型确定回复情感和回复策略，被进一步配置为：

5.根据权利要求2所述的服务器，其特征在于，所述服务器执行根据所述语音...

【专利技术属性】
技术研发人员：陈冉，张桐桐，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人