人机交互处理方法、装置、用户终端、处理服务器及系统制造方法及图纸

技术编号：19487831 阅读：19 留言：0更新日期：2018-11-17 11:43

本发明专利技术实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统，用户终端侧方法包括：接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的；向所述用户输出所述交互应答语音。该方法使得交互应答语音带有与用户当前的情绪匹配的感情色彩，使得人机交互过程不再单调，极大提升用户的使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
人机交互处理方法、装置、用户终端、处理服务器及系统
本专利技术实施例涉及人工智能技术，尤其涉及一种人机交互处理方法、装置、用户终端、处理服务器及系统。
技术介绍
随着机器人技术的不断发展，机器人的智能程度越来越高，机器人不仅能根据用户的指令完成相应的操作，同时，还能够模拟真人同用户进行交互。其中，基于语音的人机交互是重要的交互手段。在基于语音的人机交互中，用户发出语音指令，机器人根据用户的语音执行相应的操作，并向用户播放回答语音。现有的基于语音的人机交互场景中，仅支持对回答语音的音色或分贝等进行修改，而在回答语音的感情色彩上，仅支持一种固定的不体现感情色彩的回答语音。但是，现有技术的这种回答方式过于单调，用户体验不佳。
技术实现思路
本专利技术实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统，用于解决现有技术中人机交互的回答语音不带有感情色彩所导致的用户体验不佳的问题。本专利技术实施例第一方面提供一种人机交互处理方法，包括：接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的；向所述用户输出所述交互应答语音。进一步的，所述采集获取所述用户输入的交互请求语音时的视频数据，包括：通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。进一步的，所述获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的，包...

【技术保护点】
1.一种人机交互处理方法，其特征在于，包括：接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的；向所述用户输出所述交互应答语音。

【技术特征摘要】
1.一种人机交互处理方法，其特征在于，包括：接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的；向所述用户输出所述交互应答语音。2.根据权利要求1所述的方法，其特征在于，所述采集获取所述用户输入的交互请求语音时的视频数据，包括：通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。3.根据权利要求1或2所述的方法，其特征在于，所述获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的，包括：向处理服务器发送所述交互请求语音以及所述视频数据，以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息，并根据所述表情信息以及所述交互请求语音得到所述交互应答语音；接收所述处理服务器反馈的所述交互应答语音。4.根据权利要求1或2所述的方法，其特征在于，所述交互应答语音的语音内容与所述表情信息对应，和/或，所述交互应答语音的音频特性与所述表情信息对应。5.一种人机交互处理方法，其特征在于，包括:接收用户终端发送的交互请求语音以及视频数据，所述交互请求语音为用户在所述用户终端上输入的，所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的；从所述视频数据中分析得到所述用户的表情信息；根据所述表情信息以及所述交互请求语音得到交互应答语音；向所述用户终端发送所述交互应答语音，以使所述用户终端向所述用户播放所述交互应答语音。6.根据权利要求5所述的方法，其特征在于，所述从所述视频数据中分析得到所述用户的表情信息，包括：从所述视频数据中获取关键人脸图像；对所述关键人脸图像进行表情识别，得到所述用户的表情信息。7.根据权利要求6所述的方法，其特征在于，所述对所述关键人脸图像进行表情识别，得到所述用户的表情信息，包括：向预测模型服务器发送包含所述关键人脸图像的表情分类请求，以使所述预测模型服务器对所述关键人脸图像进行表情识别，得到所述用户的表情信息；接收所述预测模型服务器发送的所述用户的表情信息。8.根据权利要求7所述的方法，其特征在于，所述向预测模型服务器发送包含所述关键人脸图像的表情分类请求，包括：根据负载均衡策略，向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。9.根据权利要求6-8中任一项所述的方法，其特征在于，所述对所述关键人脸图像进行表情识别，得到所述用户的表情信息，包括：将每一幅关键人脸图像输入到人脸表情识别模型中，得到与每一幅关键人脸图像对应的表情信息；对全部关键人脸图像对应的表情信息进行加权处理，得到所述用户的表情信息。10.根据权利要求6-8中任一项所述的方法，其特征在于，所述根据所述表情信息以及所述交互请求语音得到交互应答语音，包括：对所述交互请求语音进行语音识别，得到请求语音文本；根据所述请求语音文本以及所述表情信息，得到交互应答语音；其中，所述交互应答语音的语音内容与所述表情信息对应，和/或，所述交互应答语音的音频特性与所述表情信息对应。11.一种人机交互处理装置，其特征在于，包括：接收模块，用于接收用户输入的交互请求语音，并采集获取所述用户输入交互请求语音时的视频数据；获取模块，用于获取与所述交互请求语音对应的交互应答语音，所述交互应答语音是根...

【专利技术属性】
技术研发人员：乔爽爽，刘昆，梁阳，林湘粤，韩超，朱名发，郭江亮，李旭，刘俊，李硕，尹世明，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人