具有多个语音理解引擎的智能语音理解系统和智能语音交互方法技术方案

技术编号：31914195 阅读：13 留言：0更新日期：2022-01-15 12:55

具有多个语音理解引擎的智能语音理解系统和智能语音交互方法。智能语音理解系统包括：非采用转写的方式处理语音的第一语音理解引擎，采用转写的方式处理语音的第二语音理解引擎，以及理解结果判定单元，第一语音理解引擎的语音处理单元对语音进行处理，获得编码序列形式的语音数据，自然语言理解单元通过自然语言理解模型基于编码序列形式的语音数据来获得与语音对应的意图；第二语音理解引擎的语音处理单元对语音进行转写处理，获得文本形式的语音数据，自然语言理解单元通过自然语言理解模型基于文本形式的语音数据来获得与语音对应的意图；理解结果判定单元根据两个语音理解引擎的理解结果来判断与语音对应的意图。解引擎的理解结果来判断与语音对应的意图。解引擎的理解结果来判断与语音对应的意图。

全部详细技术资料下载

【技术实现步骤摘要】
具有多个语音理解引擎的智能语音理解系统和智能语音交互方法

[0001]本专利技术涉及语音智能处理技术，具体而言，涉及一种具有多语音理解引擎的智能语音理解系统和智能语音交互方法。

技术介绍

[0002]目前的智能语音处理(NLP)方案是在语音识别得到的文字序列的基础上进行语义分析来实现自然语言理解。具体地，先将语音转写为文字，然后通过关键词匹配技术，或者结合上下文或知识图谱，亦或借助深度学习技术，来分析该文字序列进而获得语音所表达的含义(语义)。这种方案非常依赖于语音转写的准确性。
[0003]语音转写技术本身有很大的局限。语音识别的识别准确率受到很多因素的影响，也无法建立统一的语音识别模型。例如，对于相同的字、词、短语和句子，由于受到说话人发音特点、说话习惯、说话场景、上下文、实时情绪等因素的影响，不同人的语音在音量、音调、语气、音长等方面有所差异，并且说话人发声器官与声音接收器(麦克风)之间的距离、背景噪音、多人同时说话(鸡尾酒会问题)、语音传输信道带宽(如电话语音)等外部因素也会增加语音识别的复杂度和难度。特别地，当说话人对于某些字或词的发音与其它字或词的标准发音相近或相同时，容易发生识别偏差或识别错误。
[0004]对于中文来说，大量多音字的存在更增加了获得识别率的难度。尽管目前的语音识别技术可以针对具体方言、具体口音甚至具体人来训练具体的语音识别模型，但是却无法实现这些模型的统一和自动切换，因此并不能从根本上解决发音个异性导致的识别不准的问题。
[0005]目前的语音处理方案都只包括一...

【技术保护点】

【技术特征摘要】
1.一种智能语音理解系统，包括：非采用转写的方式处理语音的第一语音理解引擎，采用转写的方式处理语音的第二语音理解引擎，以及理解结果判定单元(103)，其中，所述第一语音理解引擎包括语音处理单元(101)和自然语言理解单元(102)，所述第一语音理解引擎的语音处理单元(101)对语音进行处理，获得编码序列形式的语音数据，所述第一语音理解引擎的自然语言理解单元(102)通过自然语言理解模型基于所述编码序列形式的语音数据来获得与所述语音对应的意图，所述第二语音理解引擎包括语音处理单元(104)和自然语言理解单元(105)，所述第二语音理解引擎的语音处理单元(104)对所述语音进行转写处理，获得文本形式的语音数据，所述第二语音理解引擎的自然语言理解单元(105)通过自然语言理解模型基于所述文本形式的语音数据来获得与所述语音对应的意图，所述理解结果判定单元(103)根据所述第一语音理解引擎的理解结果和所述第二语音理解引擎的理解结果来判断与所述语音对应的意图。2.根据权利要求1所述的智能语音理解系统，其中，所述第一语音理解引擎的理解结果包括所述语音与某个语用信息分类节点相对应的置信度，所述第二语音理解引擎的理解结果包括所述同一条语音与某个语用信息分类节点相对应的置信度，所述理解结果判定单元(103)根据所述第一语音理解引擎关于语用信息分类节点的设定阈值和所述第二语音理解引擎关于语用信息分类节点的设定阈值来获得所述智能语音理解系统的语音理解结果。3.根据权利要求2所述的智能语音理解系统，其中，所述置信度是语音与语音交互层的语用信息分类节点相对应的概率。4.根据权利要求1所述的智能语音理解系统，其中，所述第一语音理解引擎和所述第二语音理解引擎基于相同的分层设置的语用信息分类节点进行语音理解。5.根据权利要求1所述的智能语音理解系统，其中，所述第一语音理解引擎的自然语言理解单元(102)利用所述编码序列形式的语音数据与语用信息分类节点的配对数据生成语音理解模型，所述第二语音理解引擎的自然语言理解单元(105)利用所述文本形式的语音数据与语用信息分类节点的配对数据生成语音理解模型，并且所述第一语音理解引擎的自然语言理解单元(102)和所述第二语音理解引擎的自然语言理解单元(105)，分别地，选择当前语音交互的某一层的语用信息分类节点来训练语音理解模型，或者选择当前语音交互的多层的语用信息分类节点来训练语音理解模型，或者选择当前语音交互的所有语用...

【专利技术属性】
技术研发人员：武晓梅，
申请(专利权)人：水木智库北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人