语音交互方法及装置制造方法及图纸

技术编号:22566713 阅读:30 留言:0更新日期:2019-11-16 12:44
本发明专利技术公开了一种语音交互方法及装置,属于语音处理技术领域。方法包括:获取用户的语音数据;对语音数据进行用户属性识别,得到第一用户属性识别结果;对语音数据进行内容识别,得到语音数据的内容识别结果;至少根据第一用户属性识别结果及内容识别结果执行相应操作,以响应语音数据。本发明专利技术在获取到语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到第一用户属性识别结果及内容识别结果,且至少根据第一用户属性识别结果及内容识别结果执行相应操作,即便针对同一内容识别结果,由于不同用户的用户属性可能不同,所以执行的响应操作也可能不同,从而使得同一语音对应多种响应形式,丰富了语音响应方式,提高了语音响应的灵活性。

Voice interaction method and device

The invention discloses a voice interaction method and device, belonging to the technical field of voice processing. The methods include: obtaining the user's voice data; identifying the user's attributes of the voice data to obtain the first user's attribute recognition result; identifying the content of the voice data to obtain the content recognition result of the voice data; at least performing corresponding operations according to the first user's attribute recognition result and content recognition result to respond to the voice data. After acquiring the voice data, the invention performs user attribute recognition and content recognition on the voice data respectively to obtain the first user attribute recognition result and content recognition result, and performs corresponding operations at least according to the first user attribute recognition result and content recognition result, that is to say, for the same content recognition result, because the user attributes of different users may be different, the user attributes of different users may be different The response operations of lines may also be different, so that the same voice corresponds to multiple response forms, enriches the voice response mode, and improves the flexibility of voice response.

【技术实现步骤摘要】
语音交互方法及装置
本专利技术涉及语音处理
,特别涉及一种语音交互方法及装置。
技术介绍
随着信息技术的不断发展,用户交互技术得到了广泛的应用。而语音交互作为继键盘交互、鼠标交互及触摸屏交互后的新一代用户交互模式,以其方便快捷的特点,逐渐被广大用户认可且有被大规模推广的潜在前景。比如,智能移动终端上与语音相关的应用越来越多,而智能电视厂商也通过引用语音交互技术替换掉传统的手持遥控器。现有技术中语音交互基于语音识别技术,也即,语音交互系统在接收到一段语音后,首先对语音数据进行内容识别,得到内容识别结果,并根据该内容识别结果获知用户意图。之后,语音交互系统根据用户意图进行与该语音相对应的操作,或向终端用户返回与该语音相对应的信息。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:由于现有技术中当语音内容一致时,语音交互系统执行的操作或返回的结果均一致,所以对语音内容的响应形式较为单一,灵活性不高。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种语音交互方法及装置。所述技术方案如下:第一方面,提供了一种语音交互方法,所述方法包括:获取用户的语音数据;对所述语音数据进行用户属性识别,得到第一用户属性识别结果;对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作,以响应所述语音数据。在第一方面的第一种可能的实现方式中,所述方法还包括:采集用户图像;当检测所述用户图像中的人数为预设值时,执行所述对所述语音数据进行用户属性识别的步骤。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述当检测所述用户图像中的人数为预设值之后,所述方法还包括:提取所述用户图像中的人脸数据;对所述人脸数据进行人脸识别,得到第二用户属性识别结果。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作,包括:将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权,得到最终用户属性识别结果;根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述最终用户属性识别结果及所述内容识别结果执行相应操作,包括:确定所述最终用户属性识别结果对应的词汇内容;根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述确定所述最终用户属性识别结果对应的词汇内容之前,所述方法还包括:预先设置用户属性,所述用户属性至少包括性别属性及年龄属性;预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储;所述确定所述最终用户属性识别结果对应的词汇内容,包括:在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中,查询所述最终用户识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。结合第一方面,在第一方面的第六种可能的实现方式中,所述对所述语音数据进行用户属性识别,得到所述语音数据的第一用户属性识别结果之前,所述方法还包括:预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;所述对所述语音数据进行用户属性识别,得到所述语音数据的第一用户属性识别结果包括:对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。第二方面,提供了一种语音交互装置,所述装置包括:获取模块,用于获取用户的语音数据;用户属性识别模块,用于对所述语音数据进行用户属性识别,得到第一用户属性识别结果;内容识别模块,用于对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;执行模块,用于至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作,以响应所述语音数据。在第二方面的第一种可能的实现方式中,所述装置还包括:采集模块,用于采集用户图像;所述用户属性识别模块,用于当检测所述用户图像中的人数为预设值时,执行所述对所述语音数据进行用户属性识别的步骤。结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述装置还包括:提取模块,用于提取所述用户图像中的人脸数据;人脸识别模块,用于对所述人脸数据进行人脸识别,得到第二用户属性识别结果。结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述执行模块,包括:加权单元,用于将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权,得到最终用户属性识别结果;执行单元,用于根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述执行单元,包括:确定子单元,用于确定所述最终用户属性识别结果对应的词汇内容;执行子单元,用于根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述装置还包括:用户属性设置模块,用于预先设置用户属性,所述用户属性至少包括性别属性及年龄属性;词汇对应关系设置模块,用于预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储;所述确定子单元,用于在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中,查询所述最终用户识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。结合第二方面,在第二方面的第六种可能的实现方式中,所述装置还包括:频谱特征设置模块,用于预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;所述用户属性识别模块,用于对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。本专利技术实施例提供的技术方案带来的有益效果是:在获取到用户的语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到语音数据的本文档来自技高网...

【技术保护点】
1.一种语音交互方法,其特征在于,所述方法包括:/n获取用户的语音数据;/n查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为语音数据的用户属性识别结果;/n对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;/n确定最终用户属性识别结果对应的词汇内容;/n根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。/n

【技术特征摘要】
1.一种语音交互方法,其特征在于,所述方法包括:
获取用户的语音数据;
查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为语音数据的用户属性识别结果;
对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;
确定最终用户属性识别结果对应的词汇内容;
根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。


2.根据权利要求1所述的方法,其特征在于,所述确定所述最终用户属性识别结果对应的词汇内容之前,所述方法还包括:
预先设置用户属性,所述用户属性至少包括性别属性及年龄属性;
预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储;
所述确定所述最终用户属性识别结果对应的词汇内容,包括:
在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中,查询所述最终用户识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。


3.根据权利要求1所述的方法,其特征在于,所述对所述语音数据进行用户属性识别,得到所述语音数据的用户属性识别结果之前,所述方法还包括:
预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;
所述对所述语音数据进行用户属性识别,得到所述语音数据的第一用户属性识别结果包括:
对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;
在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结...

【专利技术属性】
技术研发人员:金洪波江焯林
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1