当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用关键语句适应性地识别语音制造技术

技术编号:28758719 阅读:30 留言:0更新日期:2021-06-09 10:32
本公开涉及使用关键语句适应性地识别语音。一种用于识别语音的示例装置包括音频接收器,用于接收音频流。该装置还包括关键语句检测器,用于检测音频流中的关键语句。该装置还包括模型适配器,用于基于检测到的关键语句来动态地适配模型。该装置还包括查询识别器,用于通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。键语句之后的声音查询。键语句之后的声音查询。

【技术实现步骤摘要】
使用关键语句适应性地识别语音


[0001]本公开涉及人工智能领域,更具体地,涉及使用关键语句适应性地识别语音。

技术介绍

[0002]语音识别器用于检测音频中的语句。例如,语句可以包括可用于执行一个或多个任务的命令。

技术实现思路

[0003]根据本公开的一方面,提供了一种装置。该装置包括:音频接收器,音频接收器用于接收音频流;关键语句检测器,关键语句检测器用于检测音频流中的关键语句;模型适配器,模型适配器用于基于关键语句来动态地适配模型;以及查询识别器,查询识别器用于通过该模型来检测音频流中跟随在关键语句之后的声音查询。
[0004]根据本公开的另一方面,提供了一种方法。该方法包括:经由处理器接收音频流;经由处理器检测音频流中的关键语句;经由处理器基于关键语句来动态地适配模型;以及经由处理器通过该模型来检测音频流中跟随在关键语句之后的声音查询。
[0005]根据本公开的另一方面,提供了一种计算机可读存储设备。该存储设备包括指令,所述指令当被执行时,使得一个或多个处理器至少检测音频流中的关键语句;基于关键语句来动态地适配模型;并且通过该模型来检测音频流中跟随在关键语句之后的声音查询。
[0006]根据本公开的另一方面,提供了一种设备。该设备包括:用于接收音频流的装置;用于检测音频流中的关键语句的装置;用于基于关键语句来动态地适配模型的装置;以及用于通过该模型来检测音频流中跟随在关键语句之后的声音查询的装置。
附图说明
[0007]图1是示出用于利用适应性语音识别进行口语理解的示例系统的框图;
[0008]图2是示出示例适应性语音识别器的框图;
[0009]图3是示出用于语音语句适应性语音识别的示例过程的时序图;
[0010]图4是示出利用超低功率声音唤醒(wake-on-voice)的示例适应性语音识别器的框图;
[0011]图5是示出利用超低功率声音唤醒进行适应性语音识别的示例过程的时序图;
[0012]图6是示出使用关键语句来适应性地识别语音的方法的流程图;
[0013]图7是示出可以使用关键语句来适应性地识别语音的示例计算设备的框图;以及
[0014]图8是示出存储用于适应性关键语句语音识别的代码的计算机可读介质的框图。
[0015]本公开和附图通篇使用相同的数字来指代相似的组件和特征。100系列中的数字是指最初在图1中找到的特征;200系列中的数字是指最初在图2中找到的特征;以此类推。
具体实施方式
[0016]语音识别器可以在由许多人记录的巨大音频语料库上被训练。这样的语音识别器可以识别在类似的声学环境中讲话的类似的人。然而,不同的声学环境或具有显著不同声音的人可导致降低的识别精度。例如,背景噪声可导致精度降低的识别结果。
[0017]本公开总体上涉及使用关键语句来适应性地识别语音的技术。例如,关键语句可以是通过声音唤醒而检测到的唤醒词,或者是更容易识别的预选语句。具体地,本文中描述的技术包括用于使用关键语句来适应性地识别语音的装置、方法和系统。示例装置包括音频接收器,用于接收音频流。该装置还包括关键语句检测器,用于检测音频流中的关键语句。该装置还包括模型适配器,用于基于检测到的关键语句来动态地适配模型。该装置还包括查询识别器,用于通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。
[0018]本文中描述的技术使用诸如唤醒词之类的关键语句来使模型适配于讲话者以及声学环境。然后,可以使用经适配的模型来更准确地检测跟随在关键语句之后的命令。该适配可以对跟随在唤醒词之后出现的语句以及任何跟随在唤醒词之后的声音查询具有直接影响。因此,这些技术实现了更可靠的适配过程,因为这些技术不假设在第一遍中生成足够好的伪真值。因此,本文中描述的技术实现了改进的语音识别精度。此外,这些技术可以引入最小延时,因为这些技术不应用重新评分。而是,本技术通过唤醒词子音素单元的序列使用后向传播(backpropagation),从而实现对用于检测声音查询的模型的动态适配。
[0019]图1是示出用于利用适应性语音识别进行口语理解的示例系统的框图。可以使用图6的方法600在图7中的计算设备700中实现示例系统100。
[0020]示例系统100包括正在由音频捕获组件104捕获的语音102。例如,音频捕获组件104可以是麦克风或麦克风阵列。系统100还包括通信地耦合到音频捕获组件104的适应性语音识别器106。例如,适应性语音识别器106可以是参考图2和图4描述的适应性语音识别器200或适应性语音识别器400。系统100包括通信地耦合到适应性语音识别器106的应用108。
[0021]在图1的示例系统100中,音频捕获组件104记录与语音102相对应的音频并且提供具有合适的格式的语音信号。例如,该格式可以包括语音特征、数字音频、或任何其他合适的格式。由唤醒词适应性语音识别器106接收该语音信号。唤醒词适应性语音识别器106对语音信号进行处理并且识别所讲出的词。然后,将识别出的词发送到应用108。例如,应用108可以是自然语言理解应用,其可以根据识别出的词中的一个或多个检测到的命令来确定意图。在各种示例中,应用108可以是虚拟助手应用。
[0022]在各种示例中,语音102中的声音查询可以遵循以下模板:<唤醒语句><声音命令>。例如,“<唤醒语句>”:=“你好计算机”并且“<声音命令>”:=“下一家餐厅在哪里?”声音查询可以由音频捕获设备104捕获,并且被发送到唤醒词适应性语音识别器106。唤醒词适应性语音识别器106可以检测到唤醒语句“你好计算机”,并使用检测到的唤醒语句来改进跟随在其后的声音命令“下一家餐厅在哪里?”的识别准确度。在各种示例中,唤醒词适应性语音识别器106基于检测到的唤醒词使语音识别模型适配于讲话者和声学环境。唤醒词适应性语音识别器106可以通过分析唤醒触发过程来计算适配方向。
[0023]可以以各种方式来配置唤醒词适应性语音识别器106。例如,在组合低功率配置中,唤醒词检测和声音查询识别可以共享同一神经元网络。然而,解码可能会有所不同,导
致唤醒词检测的较低的功率消耗。例如,解码器可以仅考虑关键语句或唤醒词中存在的多元音素(senones)或音素。ASR需要考虑词汇表中的任何音素。因此,可以以低得多的计算和存储器使用量来执行唤醒词检测。参照图2和图3描述了以组合低功率配置来配置的示例唤醒词适应性语音识别器106。
[0024]在一些示例中,可以以专用超低功率配置来配置唤醒词适应性语音识别器106。例如,可以在专用组件处执行唤醒词检测。作为一个示例,该专用组件可以以超低功率模式进行操作。参照图4和图5描述了以专用超低功率配置来配置的示例唤醒词适应性语音识别器106。
[0025]图1的图不旨在指示示例系统100包括图1中所示的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种装置,包括:音频接收器,所述音频接收器用于接收音频流;关键语句检测器,所述关键语句检测器用于检测所述音频流中的关键语句;模型适配器,所述模型适配器用于基于所述关键语句来动态地适配模型;以及查询识别器,所述查询识别器用于通过所述模型来检测所述音频流中跟随在所述关键语句之后的声音查询。2.根据权利要求1所述的装置,其中,所述关键语句检测器包括数字信号处理器。3.根据权利要求1所述的装置,其中,所述关键语句检测器和所述模型适配器包括神经网络。4.根据权利要求1-3中任一项所述的装置,其中,所述关键语句检测器包括超低功率声音唤醒单元,所述专用超低功率声音唤醒单元用于基于所述音频流中的语音特征来检测所述关键语句。5.根据权利要求1-4中任一项所述的装置,其中,所述关键语句包括唤醒语句。6.根据权利要求4或5所述的装置,还包括特征前端,所述特征前端用于基于所述音频流来计算所述语音特征。7.根据权利要求1-6中任一项所述的装置,其中,所述模型包括声学模型,所述声学模型用于生成多元音素上的概率分布。8.根据权利要求1-7中任一项所述的装置,其中,所述模型包括语言模型,所述语言模型用于计算最终字母序列。9.根据权利要求1-8中任一项所述的装置,其中,所述模型包括递归神经元网络。10.根据权利要求1-9中任一项所述的装置,其中,所述模型包括时间延迟神经元网络。11.根据权利要求1-10中任一项所述的装置,其中,所述模型适配器将各个时间步长处的误差后向传播回到初始状态。12.根据权利要求1-11中任一项所述的装置,其中,所述模型适配器在后向传递中对所述模型的多个权重进行调整。13.根据权利要求1-12中任一项所述的装置,其中,所述模型适配器通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。14.一种方法,包括:经由处理器接收音频流;经由所述处理器检测所述音频流中的关键语句;经由所述处理器基于所述关键语句来动态地适配模型;以及经由所述处理器通过所述模型来检测音频流中跟随在所述关键语句之后的声音查询。15.根据权利要求14所述的方法,其中,适配所述模型包括:将各个时间步长处的误差后向传播回到初始状态。16.根据权利要求14或15所述的方法,其中,适配所述模型包括:在后向传递中对所述模型的多个权重进行调整。17.根据权利要求14到16中任一项所述的方法,其中,适配所述模型包括:通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。18.根据权利要求14到17中任一项所述的方法,其中,适配所述模型包括:在后向传递
中对所述模型的初始状态进行调整。19.根据权利要求14到18中任一项所述的方法,其中,检测所述关键语句包括:在所述模型上执行前向传递。20.根据权利要求14到19中任一项所述的方法,其中,检测所述关键语句包括:通过超低功率唤醒语句检测器来对所...

【专利技术属性】
技术研发人员:克尔兹托夫
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1