语音交互方法及装置制造方法及图纸

技术编号:16502739 阅读:98 留言:0更新日期:2017-11-04 12:29
本发明专利技术公开了一种语音交互方法及装置,该方法包括:在接收语音识别文本之后,将所述语音识别文本分别分发到各业务中,并分别进行语义理解,然后基于得到的语义理解结果、客户端所处应用状态进行置信度排序,获取置信度最高的语义理解结果,对所述置信度最高的语义理解结果做出响应。由于基于多维度的信息进行语义理解结果的置信度排序,不仅考虑了语义理解结果与各业务的匹配度,还同时考虑了客户端所处应用状态,例如是否处于导航状态或听音乐状态,客户端所处应用及应用状态可能就是语音交互所要处理的对象,因此,基于多维度的信息进行语义理解可以有效提升判断其业务所属的准确度,提高对人机交互语义理解的正确率,提升用户体验。

Voice interaction method and device

The invention discloses a device and a voice interactive method, the method includes: after receiving the text of speech recognition, speech recognition text were distributed to each business, which are semantic understanding, and then get the results, based on semantic understanding client should state with confidence ranking, obtain confidence the highest results of semantic understanding, the confidence level is the highest response results of semantic understanding. Because confidence ranking semantic understanding of multi dimension information based on the results, not only consider the matching degree of semantic understanding of the results with the business, also considered the client application state, such as whether the state is in navigation or listening to music, the client application and the state may object to the processing is the voice interaction therefore, the multi dimension information of semantic understanding can effectively enhance its business judgment is based on accuracy, improve the rate of correct understanding of human-computer interaction semantics, enhance the user experience.

【技术实现步骤摘要】
语音交互方法及装置
本专利技术涉及语音信号处理领域,具体涉及一种语音交互方法及装置。
技术介绍
随着人工智能相关技术的日益成熟,人们的生活开始走向智能化,各种智能设备逐渐进入人们的日常生活中,如智能车机。语音作为智能设备应用中主流的交互方式之一,其方便快捷的优势有目共睹。在进行语音交互时,用户输入的语音被转写成文本后会经过语义理解,客户端根据语义理解的结果,对相应的事件进行响应。然而,不同于手机等移动终端的近距离语音交互,在智能家居或汽车等应用环境中,用户离麦克风的距离相对较远,加之吵闹环境下的噪音、车载环境下的胎噪、空调噪声、副驾驶和后排乘客的人声干扰等因素,使得环境变得非常复杂。这样即使在用户没有交互意图时,由于噪声的影响,识别和语义产生误触发,给出了语义理解的结果,从而导致客户端做出了对应的响应的情况时有发生。这不仅会给用户带来较差的用户体验,还会由于语义的误触发而影响后续语义理解的正确性,尤其是在考虑历史信息的语音交互过程中。
技术实现思路
本专利技术实施例提供一种语音交互方法及装置,避免识别和语义产生误触发,以提高对人机交互语义理解的正确率,提升用户体验。为此,本专利技术提供如下技术方案:一种语音交互方法,所述方法包括:接收语音识别文本;将所述语音识别文本分别分发到各业务中,并分别进行语义理解;基于得到的语义理解结果、客户端所处应用状态进行置信度排序,获取置信度最高的语义理解结果;对所述置信度最高的语义理解结果做出响应。优选地,进行语义理解包括:获取所述语音识别文本中各子片段的语义槽;将所述语音识别文本中存在语义槽的各子片段替换成对应的语义槽,得到所述语音识别文本的语义匹配路径;根据预先确定的文法规则对所述语音识别文本进行匹配,得到所述语音识别文本的文本匹配路径。优选地,所述根据预先确定的文法规则对所述语音识别文本进行匹配,得到所述语音识别文本的文本匹配路径包括:预先设定表示句首或句尾无意义字符的通配的第一符号、表示句中无意义字符的通配的第二符号和表示有意义字符的完全匹配的第三符号;将所述语音识别文本的各子片段与当前业务所支持的句式进行匹配,确定各子片段对应的符号,该符号为第一符号、第二符号或第三符号中的一种;将所述语音识别文本的各子片段替换为对应的符号,得到所述语音识别文本的文本匹配路。优选地,所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序包括:预先构建排序模型,所述排序模型的输入包括:文本的词向量、语义匹配路径、文本匹配路径,以及客户端所处应用状态,所述排序模型的输出为输入的文本属于各业务的概率;基于所述排序模型得到所述语音识别文本属于各业务的概率;根据上述概率的值或者上述概率的值及阈值门限进行排序。优选地,所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序,获取置信度最高的语义理解结果包括:基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序,获取置信度最高的语义理解结果,其中,所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度,所述候选语义理解结果为当前业务得到的输入文本的语义理解结果;所述排序模型的输入还包括:与搜索数据相似度、历史状态,所述历史状态包括上一时刻语义理解结果。优选地,所述方法还包括:在接收语音识别文本之后,对所述语音识别文本进行语言模型拒识;所述将所述语音识别文本分别分发到各业务中包括:将未被拒识的语音识别文本分别分发到各业务中。优选地,所述方法还包括:在接收语音识别文本之后,对所述语音识别文本进行业务预分类,得到所述语音识别文本的预分类业务;所述将所述语音识别文本分别分发到各业务中包括:将所述语音识别文本分别分发到各预分类业务中;或者将未被拒识的语音识别文本分别分发到各预分类业务中。优选地,所述对所述语音识别文本进行业务预分类,得到所述语音识别文本的预分类业务包括:对于每一个业务,预先构建该业务的预分类模型,所述预分类模型的输入为文本的词向量,输出为该文本属于该业务的概率;以及预先构建每一个业务包括的特定句式和关键词的模板的库;利用所述预分类模型获取所述语音识别文本或未被拒识的语音识别文本分别属于各业务的概率;如果该概率的值≥设定阈值,则对应的各业务作为预分类业务;如果该概率的值<设定阈值,则将当前概率对应的语音识别文本或未被拒识的语音识别文本在当前概率对应的各业务的库中与进行匹配,如果匹配成功,则该库所属的业务作为预分类业务。优选地,所述方法还包括:在进行置信度排序之前,根据当前语音交互采集的语音信号的信噪比调整所述阈值门限,其中,随着信噪比的增加,所述阈值门限降低。优选地,所述排序模型的输入还包括:信噪比;所述排序模型的参数包括:原始文本的权重,其中,该原始文本的权重随着信噪比的变小而变大。相应地,本专利技术还提供了一种语音交互装置,所述装置包括:文本接收模块,用于接收语音识别文本;语义理解模块,用于将所述语音识别文本分别分发到各业务中,并分别进行语义理解;置信度排序模块,用于基于得到的语义理解结果、客户端所处应用状态进行置信度排序,获取置信度最高的语义理解结果;响应模块,用于对所述置信度最高的语义理解结果做出响应。优选地,所述语义理解模块包括:语义槽获取单元,用于获取所述语音识别文本中各子片段的语义槽;语义匹配路径获取单元,用于将所述语音识别文本中存在语义槽的各子片段替换成对应的语义槽,得到所述语音识别文本的语义匹配路径;文本匹配路径获取单元,用于根据预先确定的文法规则对所述语音识别文本进行匹配,得到所述语音识别文本的文本匹配路径。优选地,所述文本匹配路径获取单元包括:句式匹配子单元,用于将所述语音识别文本的各子片段与当前业务所支持的句式进行匹配,确定各子片段对应的符号,该符号为第一符号、第二符号或第三符号中的一种;符号替换子单元,用于将所述语音识别文本的各子片段替换为对应的符号,得到所述语音识别文本的文本匹配路。优选地,所述装置还包括:排序模型构建模块,用于预先构建排序模型,所述排序模型的输入包括:文本的词向量、语义匹配路径、文本匹配路径,以及客户端所处应用状态,所述排序模型的输出为输入的文本属于各业务的概率;所述置信度排序模块包括:业务概率获取单元,用于基于所述排序模型得到所述语音识别文本属于各业务的概率;排序单元,用于根据上述概率的值或者上述概率的值及阈值门限进行排序。优选地,所述置信度排序模块具体用于基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序,获取置信度最高的语义理解结果,其中,所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度,所述候选语义理解结果为当前业务得到的输入文本的语义理解结果;所述排序模型的输入还包括:与搜索数据相似度、历史状态,所述历史状态包括上一时刻语义理解结果。优选地,所述装置还包括:语言模型拒识模块,用于在接收语音识别文本之后,对所述语音识别文本进行语言模型拒识;所述语义理解模块具体用于将未被拒识的语音识别文本分别分发到各业务中,并分别进行语义理解。优选地,所述装置还包括:业务预分类模块,用于在接收语音识别文本之后,对所述语音本文档来自技高网...
语音交互方法及装置

【技术保护点】
一种语音交互方法,其特征在于,所述方法包括:接收语音识别文本;将所述语音识别文本分别分发到各业务中,并分别进行语义理解;基于得到的语义理解结果、客户端所处应用状态进行置信度排序,获取置信度最高的语义理解结果;对所述置信度最高的语义理解结果做出响应。

【技术特征摘要】
1.一种语音交互方法,其特征在于,所述方法包括:接收语音识别文本;将所述语音识别文本分别分发到各业务中,并分别进行语义理解;基于得到的语义理解结果、客户端所处应用状态进行置信度排序,获取置信度最高的语义理解结果;对所述置信度最高的语义理解结果做出响应。2.根据权利要求1所述的方法,其特征在于,进行语义理解包括:获取所述语音识别文本中各子片段的语义槽;将所述语音识别文本中存在语义槽的各子片段替换成对应的语义槽,得到所述语音识别文本的语义匹配路径;根据预先确定的文法规则对所述语音识别文本进行匹配,得到所述语音识别文本的文本匹配路径。3.根据权利要求2所述的方法,其特征在于,所述根据预先确定的文法规则对所述语音识别文本进行匹配,得到所述语音识别文本的文本匹配路径包括:预先设定表示句首或句尾无意义字符的通配的第一符号、表示句中无意义字符的通配的第二符号和表示有意义字符的完全匹配的第三符号;将所述语音识别文本的各子片段与当前业务所支持的句式进行匹配,确定各子片段对应的符号,该符号为第一符号、第二符号或第三符号中的一种;将所述语音识别文本的各子片段替换为对应的符号,得到所述语音识别文本的文本匹配路。4.根据权利要求2所述的方法,其特征在于,所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序包括:预先构建排序模型,所述排序模型的输入包括:文本的词向量、语义匹配路径、文本匹配路径,以及客户端所处应用状态,所述排序模型的输出为输入的文本属于各业务的概率;基于所述排序模型得到所述语音识别文本属于各业务的概率;根据上述概率的值或者上述概率的值及阈值门限进行排序。5.根据权利要求4所述的方法,其特征在于,所述基于得到的语义理解结果、客户端所处应用状态进行置信度排序,获取置信度最高的语义理解结果包括:基于得到的语义理解结果、客户端所处应用状态、历史状态、以及与搜索数据相似度进行置信度排序,获取置信度最高的语义理解结果,其中,所述与搜索数据相似度为基于候选语义理解结果搜索的数个相似度最高的搜索数据与该候选语义理解结果的文本相似度,所述候选语义理解结果为当前业务得到的输入文本的语义理解结果;所述排序模型的输入还包括:与搜索数据相似度、历史状态,所述历史状态包括上一时刻语义理解结果。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在接收语音识别文本之后,对所述语音识别文本进行语言模型拒识;所述将所述语音识别文本分别分发到各业务中包括:将未被拒识的语音识别文本分别分发到各业务中。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:在接收语音识别文本之后,对所述语音识别文本进行业务预分类,得到所述语音识别文本的预分类业务;所述将所述语音识别文本分别分发到各业务中包括:将所述语音识别文本分别分发到各预分类业务中;或者将未被拒识的语音识别文本分别分发到各预分类业务中。8.根据权利要求7所述的方法,其特征在于,所述对所述语音识别文本进行业务预分类,得到所述语音识别文本的预分类业务包括:对于每一个业务,预先构建该业务的预分类模型,所述预分类模型的输入为文本的词向量,输出为该文本属于该业务的概率;以及预先构建每一个业务包括的特定句式和关键词的模板的库;利用所述预分类模型获取所述语音识别文本或未被拒识的语音识别文本分别属于各业务的概率;如果该概率的值≥设定阈值,则对应的各业务作为预分类业务;如果该概率的值<设定阈值,则将当前概率对应的语音识别文本或未被拒识的语音识别文本在当前概率对应的各业务的库中与进行匹配,如果匹配成功,则该库所属的业务作为预分类业务。9.根据权利要求4所述的方法,其特征在于,所述方法还包括:在进行置信度排序之前,根据当前语音交互采集的语音信号的信噪比调整所述阈值门限,其中,随着信噪比的增加,所述阈值门限降低。10.根据权利要求4所述的方法,其特征在于,所述排序模型的输入还包括:信噪比;所述排序模型的参数包括:原始文本的权重,其中,该原始文本的权重随着信噪比的变小而变大。11.一种语音交互装置,其特征在于,所述装置包括:文本接收模块,用于接收语音识别文本;语义...

【专利技术属性】
技术研发人员:李深安孔祥星王兴宝庄纪军王雪初马军涛韩后岳
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1