具有多个语音理解引擎的智能语音理解系统和智能语音交互方法技术方案

技术编号:31914195 阅读:13 留言:0更新日期:2022-01-15 12:55
具有多个语音理解引擎的智能语音理解系统和智能语音交互方法。智能语音理解系统包括:非采用转写的方式处理语音的第一语音理解引擎,采用转写的方式处理语音的第二语音理解引擎,以及理解结果判定单元,第一语音理解引擎的语音处理单元对语音进行处理,获得编码序列形式的语音数据,自然语言理解单元通过自然语言理解模型基于编码序列形式的语音数据来获得与语音对应的意图;第二语音理解引擎的语音处理单元对语音进行转写处理,获得文本形式的语音数据,自然语言理解单元通过自然语言理解模型基于文本形式的语音数据来获得与语音对应的意图;理解结果判定单元根据两个语音理解引擎的理解结果来判断与语音对应的意图。解引擎的理解结果来判断与语音对应的意图。解引擎的理解结果来判断与语音对应的意图。

【技术实现步骤摘要】
具有多个语音理解引擎的智能语音理解系统和智能语音交互方法


[0001]本专利技术涉及语音智能处理技术,具体而言,涉及一种具有多语音理解引擎的智能语音理解系统和智能语音交互方法。

技术介绍

[0002]目前的智能语音处理(NLP)方案是在语音识别得到的文字序列的基础上进行语义分析来实现自然语言理解。具体地,先将语音转写为文字,然后通过关键词匹配技术,或者结合上下文或知识图谱,亦或借助深度学习技术,来分析该文字序列进而获得语音所表达的含义(语义)。这种方案非常依赖于语音转写的准确性。
[0003]语音转写技术本身有很大的局限。语音识别的识别准确率受到很多因素的影响,也无法建立统一的语音识别模型。例如,对于相同的字、词、短语和句子,由于受到说话人发音特点、说话习惯、说话场景、上下文、实时情绪等因素的影响,不同人的语音在音量、音调、语气、音长等方面有所差异,并且说话人发声器官与声音接收器(麦克风)之间的距离、背景噪音、多人同时说话(鸡尾酒会问题)、语音传输信道带宽(如电话语音)等外部因素也会增加语音识别的复杂度和难度。特别地,当说话人对于某些字或词的发音与其它字或词的标准发音相近或相同时,容易发生识别偏差或识别错误。
[0004]对于中文来说,大量多音字的存在更增加了获得识别率的难度。尽管目前的语音识别技术可以针对具体方言、具体口音甚至具体人来训练具体的语音识别模型,但是却无法实现这些模型的统一和自动切换,因此并不能从根本上解决发音个异性导致的识别不准的问题。
[0005]目前的语音处理方案都只包括一个语音理解引擎,使用一个转写单元/转写模型。这是因为,对于这种方案而言,转写准确率决定了语义理解的准确率,而转写的结果又具有唯一性,因此只能选择一个转写准确率更高的转写模型,例如在某一垂直领域优化过的转写模型,或者针对某一种方言或口音优化过的转写模型。但是,对于口音或方言无法预测的语音交互场景,无法事先选择或自动切换更优的转写模型,因而在转写准确率因转写模型而降低的情况下,语音理解效果也差强人意。此外,转写模型的优化也需要的很高的训练数据成本和人工成本。

技术实现思路

[0006]根据本专利技术的一个方面,提供了一种智能语音理解系统,包括:非采用转写的方式处理语音的第一语音理解引擎,采用转写的方式处理语音的第二语音理解引擎,以及理解结果判定单元,其中,第一语音理解引擎包括语音处理单元和自然语言理解单元,第一语音理解引擎的语音处理单元对语音进行处理,获得编码序列形式的语音数据,第一语音理解引擎的自然语言理解单元通过自然语言理解模型基于编码序列形式的语音数据来获得与语音对应的意图,第二语音理解引擎包括语音处理单元和自然语言理解单元,第二语音理
解引擎的语音处理单元对语音进行转写处理,获得文本形式的语音数据,第二语音理解引擎的自然语言理解单元通过自然语言理解模型基于文本形式的语音数据来获得与语音对应的意图,理解结果判定单元根据第一语音理解引擎的理解结果和第二语音理解引擎的理解结果来判断与语音对应的意图。
[0007]根据本专利技术实施例的智能语音理解系统,可选地,第一语音理解引擎的理解结果包括语音与某个语用信息分类节点相对应的置信度,第二语音理解引擎的理解结果包括同一条语音与某个语用信息分类节点相对应的置信度,理解结果判定单元根据第一语音理解引擎关于语用信息分类节点的设定阈值和第二语音理解引擎关于语用信息分类节点的设定阈值来获得智能语音理解系统的语音理解结果。
[0008]根据本专利技术实施例的智能语音理解系统,可选地,置信度是语音与语音交互层的语用信息分类节点相对应的概率。
[0009]根据本专利技术实施例的智能语音理解系统,可选地,第一语音理解引擎和第二语音理解引擎基于相同的分层设置的语用信息分类节点进行语音理解。
[0010]根据本专利技术实施例的智能语音理解系统,可选地,第一语音理解引擎的自然语言理解单元利用编码序列形式的语音数据与语用信息分类节点的配对数据生成语音理解模型,第二语音理解引擎的自然语言理解单元利用文本形式的语音数据与语用信息分类节点的配对数据生成语音理解模型,并且第一语音理解引擎的自然语言理解单元和第二语音理解引擎的自然语言理解单元,分别地,选择当前语音交互的某一层的语用信息分类节点来训练语音理解模型,或者选择当前语音交互的多层的语用信息分类节点来训练语音理解模型,或者选择当前语音交互的所有语用信息分类节点来训练语音理解模型。
[0011]根据本专利技术实施例的智能语音理解系统,可选地,第一语音理解引擎的自然语言理解单元选择在当前语音交互的某一层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练,或者选择在当前语音交互的多层或者全部各层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练,或者选择当前语音交互之外的其它语音交互的相同语用信息分类节点的训练数据来对当前语音交互的语音理解模型进行训练;
[0012]第二语音理解引擎的自然语言理解单元选择在当前语音交互的某一层收集的与语用信息分类节点对应的文本形式的语音数据对语音理解模型进行训练,或者选择在当前语音交互的多层或者全部各层收集的与语用信息分类节点对应的文本形式的语音数据对语音理解模型进行训练,或者选择当前语音交互之外的其它语音交互的相同语用信息分类节点的训练数据来对当前语音交互的语音理解模型进行训练。
[0013]根据本专利技术实施例的智能语音理解系统,可选地,理解结果判定单元获得智能语音理解系统的语音理解结果包括对于第一语音理解引擎的理解结果和第二语音理解引擎的理解结果进行加权处理。
[0014]根据本专利技术实施例的智能语音理解系统,可选地,理解结果判定单元获得智能语音理解系统的语音理解结果包括根据语音长度对于第一语音理解引擎的理解结果和第二语音理解引擎的理解结果进行加权处理。
[0015]根据本专利技术实施例的智能语音理解系统,可选地,智能语音理解系统包括理解结果同步单元,使得理解结果判定单元根据多个语音理解引擎对于同一条语音的语音理解结
果来确定智能语音理解系统的语音理解结果。
[0016]根据本专利技术实施例的智能语音理解系统,可选地,智能语音理解系统记录第二语音理解引擎转写获得的与语用信息分类节点对应的文本形式的语音数据作为实体词信息。
[0017]根据本专利技术的另一方面,提供了一种智能语音交互方法,其中,包括:接收语音;第一语音理解引擎对语音进行处理,获得编码序列形式的语音数据,通过自然语言理解模型对编码序列形式的语音数据进行理解;第二语音理解引擎对语音进行转写处理,获得文本形式的语音数据,通过自然语言理解模型对文本形式的语音数据进行理解;根据第一语音理解引擎的理解结果和第二语音理解引擎的理解结果来判断与语音对应的意图;做出与意图对应的响应。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本专利技术的一些实施例,而非对本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能语音理解系统,包括:非采用转写的方式处理语音的第一语音理解引擎,采用转写的方式处理语音的第二语音理解引擎,以及理解结果判定单元(103),其中,所述第一语音理解引擎包括语音处理单元(101)和自然语言理解单元(102),所述第一语音理解引擎的语音处理单元(101)对语音进行处理,获得编码序列形式的语音数据,所述第一语音理解引擎的自然语言理解单元(102)通过自然语言理解模型基于所述编码序列形式的语音数据来获得与所述语音对应的意图,所述第二语音理解引擎包括语音处理单元(104)和自然语言理解单元(105),所述第二语音理解引擎的语音处理单元(104)对所述语音进行转写处理,获得文本形式的语音数据,所述第二语音理解引擎的自然语言理解单元(105)通过自然语言理解模型基于所述文本形式的语音数据来获得与所述语音对应的意图,所述理解结果判定单元(103)根据所述第一语音理解引擎的理解结果和所述第二语音理解引擎的理解结果来判断与所述语音对应的意图。2.根据权利要求1所述的智能语音理解系统,其中,所述第一语音理解引擎的理解结果包括所述语音与某个语用信息分类节点相对应的置信度,所述第二语音理解引擎的理解结果包括所述同一条语音与某个语用信息分类节点相对应的置信度,所述理解结果判定单元(103)根据所述第一语音理解引擎关于语用信息分类节点的设定阈值和所述第二语音理解引擎关于语用信息分类节点的设定阈值来获得所述智能语音理解系统的语音理解结果。3.根据权利要求2所述的智能语音理解系统,其中,所述置信度是语音与语音交互层的语用信息分类节点相对应的概率。4.根据权利要求1所述的智能语音理解系统,其中,所述第一语音理解引擎和所述第二语音理解引擎基于相同的分层设置的语用信息分类节点进行语音理解。5.根据权利要求1所述的智能语音理解系统,其中,所述第一语音理解引擎的自然语言理解单元(102)利用所述编码序列形式的语音数据与语用信息分类节点的配对数据生成语音理解模型,所述第二语音理解引擎的自然语言理解单元(105)利用所述文本形式的语音数据与语用信息分类节点的配对数据生成语音理解模型,并且所述第一语音理解引擎的自然语言理解单元(102)和所述第二语音理解引擎的自然语言理解单元(105),分别地,选择当前语音交互的某一层的语用信息分类节点来训练语音理解模型,或者选择当前语音交互的多层的语用信息分类节点来训练语音理解模型,或者选择当前语音交互的所有语用...

【专利技术属性】
技术研发人员:武晓梅
申请(专利权)人:水木智库北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1