人机交互处理方法、装置、用户终端、处理服务器及系统制造方法及图纸

技术编号:19487831 阅读:19 留言:0更新日期:2018-11-17 11:43
本发明专利技术实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统,用户终端侧方法包括:接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;向所述用户输出所述交互应答语音。该方法使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。

【技术实现步骤摘要】
人机交互处理方法、装置、用户终端、处理服务器及系统
本专利技术实施例涉及人工智能技术,尤其涉及一种人机交互处理方法、装置、用户终端、处理服务器及系统。
技术介绍
随着机器人技术的不断发展,机器人的智能程度越来越高,机器人不仅能根据用户的指令完成相应的操作,同时,还能够模拟真人同用户进行交互。其中,基于语音的人机交互是重要的交互手段。在基于语音的人机交互中,用户发出语音指令,机器人根据用户的语音执行相应的操作,并向用户播放回答语音。现有的基于语音的人机交互场景中,仅支持对回答语音的音色或分贝等进行修改,而在回答语音的感情色彩上,仅支持一种固定的不体现感情色彩的回答语音。但是,现有技术的这种回答方式过于单调,用户体验不佳。
技术实现思路
本专利技术实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统,用于解决现有技术中人机交互的回答语音不带有感情色彩所导致的用户体验不佳的问题。本专利技术实施例第一方面提供一种人机交互处理方法,包括:接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;向所述用户输出所述交互应答语音。进一步的,所述采集获取所述用户输入的交互请求语音时的视频数据,包括:通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。进一步的,所述获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的,包括:向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音;接收所述处理服务器反馈的所述交互应答语音。进一步的,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。本专利技术实施例第二方面提供一种人机交互处理方法,包括:接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的;从所述视频数据中分析得到所述用户的表情信息;根据所述表情信息以及所述交互请求语音得到交互应答语音;向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。进一步的,所述从所述视频数据中分析得到所述用户的表情信息,包括:从所述视频数据中获取关键人脸图像;对所述关键人脸图像进行表情识别,得到所述用户的表情信息。进一步的,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;接收所述预测模型服务器发送的所述用户的表情信息。进一步的,所述向预测模型服务器发送包含所述关键人脸图像的表情分类请求,包括:根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。进一步的,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。进一步的,所述根据所述表情信息以及所述交互请求语音得到交互应答语音,包括:对所述交互请求语音进行语音识别,得到请求语音文本;根据所述请求语音文本以及所述表情信息,得到交互应答语音;其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。本专利技术实施例第三方面提供一种人机交互装置,包括:接收模块,用于接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;获取模块,用于获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;输出模块,用于向所述用户输出所述交互应答语音。进一步的,所述接收模块具体用于:通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。进一步的,所述获取模块包括:发送单元,用于向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音;接收单元,用于接收所述处理服务器反馈的所述交互应答语音。进一步的,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。本专利技术实施例第四方面提供一种人机交互装置,包括:接收模块,用于接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的;分析模块,用于从所述视频数据中分析得到所述用户的表情信息;处理模块,用于根据所述表情信息以及所述交互请求语音得到交互应答语音;发送模块,用于向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。进一步的,所述分析模块包括:获取单元,用于从所述视频数据中获取关键人脸图像;第一识别单元,用于对所述关键人脸图像进行表情识别,得到所述用户的表情信息。进一步的,所述第一识别单元具体用于:向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;接收所述预测模型服务器发送的所述用户的表情信息。进一步的,所述第一识别单元具体用于:根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。进一步的,所述第一识别单元具体用于:将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。进一步的,所述处理模块包括:第二识别单元,用于对所述交互请求语音进行语音识别,得到请求语音文本;处理单元,用于根据所述请求语音文本以及所述表情信息,得到交互应答语音;其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。本专利技术实施例第五方面提供一种用户终端,包括:存储器,用于存储程序指令;处理器,用于调用并执行所述存储器中的程序指令,执行上述第一方面所述的方法步骤。本专利技术实施例第六方面提供一种处理服务器,包括:存储器,用于存储程序指令;处理器,用于调用并执行所述存储器中的程序指令,执行上述第二方面所述的方法步骤。本专利技术实施例第七方面提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行上述第一方面或者上述第二方面所述的方法步骤。本专利技术实施例第八方面提供一种人机交互处理系统,其特征在于,包括上述第五方面所述的用户终端以及上述第六方面所述的处理服务器。本专利技术实施例所提供的人机交互处理方法、装置、用户本文档来自技高网...

【技术保护点】
1.一种人机交互处理方法,其特征在于,包括:接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;向所述用户输出所述交互应答语音。

【技术特征摘要】
1.一种人机交互处理方法,其特征在于,包括:接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的;向所述用户输出所述交互应答语音。2.根据权利要求1所述的方法,其特征在于,所述采集获取所述用户输入的交互请求语音时的视频数据,包括:通过双目摄像头采集获取所述用户在输入所述交互请求语音时的视频数据。3.根据权利要求1或2所述的方法,其特征在于,所述获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述视频数据中所包含的所述用户在输入所述交互请求语音时的表情信息得到的,包括:向处理服务器发送所述交互请求语音以及所述视频数据,以使所述处理服务器从所述视频数据中分析得到所述用户的表情信息,并根据所述表情信息以及所述交互请求语音得到所述交互应答语音;接收所述处理服务器反馈的所述交互应答语音。4.根据权利要求1或2所述的方法,其特征在于,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。5.一种人机交互处理方法,其特征在于,包括:接收用户终端发送的交互请求语音以及视频数据,所述交互请求语音为用户在所述用户终端上输入的,所述视频数据为所述用户终端在所述用户输入所述交互请求语音时采集的;从所述视频数据中分析得到所述用户的表情信息;根据所述表情信息以及所述交互请求语音得到交互应答语音;向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。6.根据权利要求5所述的方法,其特征在于,所述从所述视频数据中分析得到所述用户的表情信息,包括:从所述视频数据中获取关键人脸图像;对所述关键人脸图像进行表情识别,得到所述用户的表情信息。7.根据权利要求6所述的方法,其特征在于,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:向预测模型服务器发送包含所述关键人脸图像的表情分类请求,以使所述预测模型服务器对所述关键人脸图像进行表情识别,得到所述用户的表情信息;接收所述预测模型服务器发送的所述用户的表情信息。8.根据权利要求7所述的方法,其特征在于,所述向预测模型服务器发送包含所述关键人脸图像的表情分类请求,包括:根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述关键人脸图像的表情分类请求。9.根据权利要求6-8中任一项所述的方法,其特征在于,所述对所述关键人脸图像进行表情识别,得到所述用户的表情信息,包括:将每一幅关键人脸图像输入到人脸表情识别模型中,得到与每一幅关键人脸图像对应的表情信息;对全部关键人脸图像对应的表情信息进行加权处理,得到所述用户的表情信息。10.根据权利要求6-8中任一项所述的方法,其特征在于,所述根据所述表情信息以及所述交互请求语音得到交互应答语音,包括:对所述交互请求语音进行语音识别,得到请求语音文本;根据所述请求语音文本以及所述表情信息,得到交互应答语音;其中,所述交互应答语音的语音内容与所述表情信息对应,和/或,所述交互应答语音的音频特性与所述表情信息对应。11.一种人机交互处理装置,其特征在于,包括:接收模块,用于接收用户输入的交互请求语音,并采集获取所述用户输入交互请求语音时的视频数据;获取模块,用于获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根...

【专利技术属性】
技术研发人员:乔爽爽刘昆梁阳林湘粤韩超朱名发郭江亮李旭刘俊李硕尹世明
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1