用于处理语音的方法和装置制造方法及图纸

技术编号：26224640 阅读：48 留言：0更新日期：2020-11-04 10:59

本申请公开了用于处理语音的方法和装置，涉及图像识别、语音技术领域。具体实施方式包括：接收终端设备发送的用户语音和人脸图像，其中，上述人脸图像和上述用户语音针对相同用户，上述人脸图像和上述用户语音之间的采集时刻间隔小于目标时长；确定该人脸图像所指示的情绪信息，基于该情绪信息，对该用户语音生成回复语音；将该回复语音反馈给该终端设备，以使该终端设备播放该回复语音。本申请可以让电子设备基于用户的情绪与用户进行语音交互，让机器具有共情能力，从而提升语音交互效果。并且，利用服务器生成回复语音可以确保较高的回复效率。

全部详细技术资料下载

【技术实现步骤摘要】
用于处理语音的方法和装置
本申请实施例涉及计算机
，具体涉及图像识别、语音
，尤其涉及用于处理语音的方法和装置。
技术介绍
随着人工智能技术的发展，智能语音交互也逐渐得到普及，尤其是在手机等便携设备的使用中。电子设备可以针对各种语境与用户进行流畅的对话，比如，用户可以向电子设备询问词汇的含义，电子设备则可以以语音的形式播放出该词汇的含义。在相关技术中，用户触发电子设备的智能语音交互通常需要说出唤醒词，或者对电子设备上的按键进行预设操作。
技术实现思路
提供了一种用于处理语音的方法、装置、电子设备以及存储介质。根据第一方面，提供了一种用于处理语音的方法，包括：接收终端设备发送的用户语音和人脸图像，其中，人脸图像和用户语音针对相同用户，人脸图像和用户语音之间的采集时刻间隔小于目标时长；确定人脸图像所指示的情绪信息，基于情绪信息，对用户语音生成回复语音；将回复语音反馈给终端设备，以使终端设备播放回复语音。根据第二方面，提供了一种用于处理语音的装置，包括：接收单元，被配置成接收...

【技术保护点】
1.一种用于处理语音的方法，用于服务器，所述方法包括：/n接收终端设备发送的用户语音和人脸图像，其中，所述人脸图像和所述用户语音针对相同用户，所述人脸图像和所述用户语音之间的采集时刻间隔小于或等于目标时长；/n确定所述人脸图像所指示的情绪信息，基于所述情绪信息，对所述用户语音生成回复语音；/n将所述回复语音反馈给所述终端设备，以使所述终端设备播放所述回复语音。/n

【技术特征摘要】
1.一种用于处理语音的方法，用于服务器，所述方法包括：
接收终端设备发送的用户语音和人脸图像，其中，所述人脸图像和所述用户语音针对相同用户，所述人脸图像和所述用户语音之间的采集时刻间隔小于或等于目标时长；
确定所述人脸图像所指示的情绪信息，基于所述情绪信息，对所述用户语音生成回复语音；
将所述回复语音反馈给所述终端设备，以使所述终端设备播放所述回复语音。

2.根据权利要求1所述的方法，其中，所述基于所述情绪信息，对所述用户语音生成回复语音，包括：
基于所述情绪信息，生成与所述回复语音关联的表达方式信息；
对所述用户语音生成所述表达方式信息对应的回复语音。

3.根据权利要求1所述的方法，其中，所述基于所述情绪信息，对所述用户语音生成回复语音，包括：
响应于所述用户语音为交通路线查询语音，获取所述用户语音对应的至少一个候选交通路线；
在所述至少一个候选交通路线中，选择与所述情绪信息匹配的交通路线；
生成所选择的交通路线对应的回复语音。

4.根据权利要求3所述的方法，其中，所述在所述至少一个候选交通路线中，选择与所述情绪信息匹配的交通路线，包括：
响应于所述情绪信息包括指定信息，在所述至少一个候选交通路线中，选择预估到达时长最短的交通路线，其中，所述指定信息为焦急信息。

5.根据权利要求1所述的方法，其中，所述基于所述情绪信息，对所述用户语音生成回复语音，包括：
响应于所述用户语音为天气查询语音，若所述情绪信息包括负向信息且所述天气查询语音的查询结果为负向结果，则生成与所述负向结果对应的行程推荐语句，其中，所述行程推荐语句包括以下的至少一项：针对所述负向结果对应的负向时段的替代出行方案语句、所述负向时段对应的时段回避语句、所述负向时段以外的其它时段对应的时段推荐语句；
生成所述行程推荐语句对应的回复语音。

6.根据权利要求5所述的方法，其中，所述基于所述情绪信息，对所述用户语音生成回复语音，还包括：
响应于所述用户语音为天气查询语音，若所述情绪信息包括负向信息且所述天气查询语音的查询结果为负向结果，生成指示目标语速和目标语调的表达方式信息，其中，所述目标语速小于预设语速阈值，所述目标语调低于预设语调阈值；以及
所述生成所述行程推荐语句对应的回复语音，包括：
生成所述行程推荐语句和所述表达方式信息对应的回复语音。

7.根据权利要求1所述的方法，其中，所述基于所述情绪信息，对所述用户语音生成回复语音，包括：
响应于所述用户语音包括情绪描述信息，若所述情绪描述信息为正向信息且所述情绪信息为负向信息，则获取预设安慰信息；
生成所述安慰信息对应的回复语音。

8.一种用于处理语音的装置，用于服务器，所述装置包括：
接收单元，被配置成接收终端设备发送的用户语音和人脸图像，其中，所述人脸图像和所述用户语音针对相同用户，所述人脸图像和所述用户语音之间的采集时刻间隔小于目标时长；
确定单元，被配置成确定所述人脸图像所指示的情绪信息，基于所述情绪信息，对所述用户语音生成回复语音；
反...

【专利技术属性】
技术研发人员：唐利里，褚长森，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人