带有多向解码的语音辨识器制造技术

技术编号:13346332 阅读:49 留言:0更新日期:2016-07-14 16:07
在一种自动化语音辨识(ASR)处理系统中,ASR处理可以被配置来基于从波束形成器接收的音频的多信道处理语音。所述ASR处理系统可以包括麦克风阵列和所述波束形成器以便输出音频的多个信道,以使得每个信道在特定的方向上隔离音频。多信道音频信号可以包括来自一个或多个说话者的说出的话语/语音以及未期望的音频,诸如来自家用电器的噪声。ASR设备可以同时对多信道音频执行语音辨识以便提供更准确的语音辨识结果。

【技术实现步骤摘要】
【国外来华专利技术】带有多向解码的语音辨识器
技术介绍
人机交互已经发展到这样的程度:人类可以控制计算设备,并且通过说话向这些设备提供输入。计算设备采用技术以便基于接收的音频输入的各种质量来识别人类用户说出的词语。此类技术被称为语音辨识或者自动语音辨识(ASR)。语音辨识与语言处理技术相结合可允许用户控制计算设备以便基于用户的说出的命令执行任务。语音辨识还可以将用户的语音转换成文本数据,所述文本数据接着可被提供至各种基于文本的程序和应用。计算机、手持式设备、电话计算机系统、信息亭以及改善人机交互的各种其他设备可以使用语音辨识。附图说明为了更完整地理解本公开,现在结合附图参考以下描述。图1示出根据本公开的一个方面的用于解码来自波束形成器的音频的多个信道的一种技术。图2示出根据本公开的一个方面的用于与分布式语音辨识一起使用的计算机网络。图3是概念性地示出根据本公开的一个方面的用于语音辨识的设备的框图。图4示出根据本公开的一个方面的被处理的音频波形。图5示出根据本公开的一个方面的音素处理。图6示出根据本公开的一个方面的隐马尔可夫模型中的音素处理。图7示出根据本公开的一个方面的词语结果网络。图8示出根据本公开的一个方面的语音辨识点阵。图9示出根据本公开的一个方面的用于语音辨识的神经网络。图10示出根据本公开的一个方面的用于语音辨识的神经网络。图11示出根据本公开的一个方面的HMM结果网络。图12示出根据本公开的方面的用于基于解码从波束形成器接收的音频的多个信道处理语音的方法。具体实施方式自动语音辨识(ASR)技术使得用户能够对着音频捕获设备(例如,音频输入/捕获元件和/或麦克风)说话并且具有包括被转化成命令(其由ASR设备辨识)的语音的音频信号。尽管对于设备的音频输入可以包括来自一个或多个用户的语音,但是其还可以包括诸如来自其他来源的音频(例如,其他个体、来自器具的背景噪声)的背景噪声。来自其他来源的音频可源自不同的方向,这使得所期望的音频的接收和处理进一步复杂化。此外,来自这些其他来源的音频可使得ASR设备解释来自用户的语音用于处理更加困难。本文所提供的是用于基于从波束形成器接收的音频的多个信道处理语音的方法。在本公开的一个方面中,ASR设备可以装备有麦克风阵列和波束形成器,并且所述波束形成器可以输出音频的多个信道,以使得每个信道以特定的方向隔离音频。ASR设备从波束形成器接收多信道音频。多信道音频信号可以包括来自一个或多个说话者的说出的话语/语音以及未期望的音频,诸如来自家用电器的噪声。ASR设备可以同时对多信道音频执行语音辨识以便提供更准确的语音辨识结果。图1示出根据本公开的方面的用于处理语音的方法。图1包括具有麦克风阵列126、包括波束形成器模块128的ASR设备100,以及围绕所述ASR设备100定位的用户120、洗碗机122和立体声扬声器124。尽管麦克风阵列被示出为圆形配置,但是所述麦克风阵列可能以其他麦克风阵列配置(包括带有多个阵列的那些)来布置以便有利于从不同的方向接收音频信号。ASR设备100可以如在框102中所示,从多个方向接收音频,包括来自用户的语音和/或来自洗碗机122、立体声输出124等的其他音频。来自用户的语音的接收和来自其他来源的音频的接收可以是同时的。由线110示出的多个波束表示可由波束形成器128隔离的方向。在本公开的一个方面中,ASR设备100同时对音频数据的多个信道执行语音辨识以便改善语音辨识结果。在此所描述的技术可以在本地设备上执行,诸如ASR设备100、网络设备或者不同设备的某个组合。例如,本地设备可以接收多信道音频数据并且将所述音频数据发送至远程设备用于处理。远程设备接着可以对多信道音频执行ASR处理以便确定语音辨识。可替代地,本地设备和远程设备可能以其他方式共同作用。这些多个ASR设备可以通过网络连接。如在图2中所示,多个设备可以通过网络202连接。网络202可以包括本地或者个人网络或者可以包括诸如互联网的广域网络。可通过有线或无线连接将设备连接到网络202。例如,可通过无线服务提供商将无线设备204连接到网络202。可通过有线连接将诸如计算机212的其他设备连接到网络202。诸如冰箱218的其他设备(例如,其被定位在家里或者购物机构中)可通过有线或者无线连接来连接到网络202。其他设备(诸如膝上型计算机208或者平板计算机210)可能能够使用各种连接方法(包括通过无线服务提供商、通过WiFi连接等等)连接到网络202。联网设备可以通过多个音频输入设备(包括通过耳机206或214)输入说出的音频。音频输入设备可以通过有线或者无线连接被连接到联网设备。联网设备还可以包括嵌入式音频输入设备,诸如膝上型计算机208、无线设备204或者平板计算机210中的内置麦克风(未示出)。在某些的ASR系统配置中,一个设备可以捕获音频信号并且另一设备可以执行ASR处理。例如,对于耳机214的音频输入可以由计算机212捕获并且通过网络202发送到计算机220或者服务器216用于处理。可替代地,计算机212可以在将音频信号通过网络202发送之前部分地处理所述音频信号。因为ASR处理可以包括在存储以及处理能力方面的重要的计算资源,所以在捕获音频的设备具有比远程设备更低的处理能力以及更高质量的ASR结果被期望的情况中,这样的分裂配置可以被采用。音频捕获可以接近用户发生并且所捕获的音频信号被发送到另一设备用于处理。例如,一个或多个麦克风阵列可以被定位在与ASR设备不同的位置中,并且所捕获的音频可以从所述阵列发送到ASR设备(或者多个设备)用于处理。图3示出用于执行语音辨识的自动语音辨识(ASR)设备302。本公开的方面包括可驻留在ASR设备302上的计算机可读以及计算机可执行指令。图3示出可被包括在ASR设备302中的多个部件,然而其他未示出的部件也可被包括。此外,所示出的部件的一些可能不存在于能够采用本公开的方面的每个设备中。此外,在ASR设备302中被示出为单个部件的一些部件也可以在单个设备中多次出现。例如,ASR设备302可以包括多个输入设备306、输出设备307或者多个控制器和/或处理器308。多个ASR设备可以在单个语音辨识系统中被采用。在这样的多设备系统中,ASR设备可以包括用于执行语音辨识过程的不同方面的不同部件。多个设备可以包括重叠部件。如图3中所示的ASR设备是示例性的,并且可以是独立设备或者可被整体或者部分地包括为更大的设备或者系统的部件。本公开的教导可被应用在多个不同的设备和计算机系统中,包括例如,通用计算系统、服务器-客户端计算系统、主机计算系统、电话计算系统、膝上型计算机、蜂窝电话、个人数字助理(PDA)、平板计算机、其他移动设备等。ASR设备302还可以是可提供语音辨识功能的其他设备或者系统的部件,例如像自动柜员机(ATM)、信息亭、家用电器(诸如冰箱、烤箱等)、车辆(诸如汽车、公交车、摩托车等)、和/或健身器材。如在图3中所示,ASR设备302可以包括用于捕获说出的话语用于处理的音频捕获设备304。音频捕获设备304可以包括用于捕获声音的麦克风或者其他合适的部件。音频捕获设备304可以集成到ASR设备302中或者可以与ASR设备302分离。ASR设备302还可以包括用于本文档来自技高网...

【技术保护点】
一种用于执行语音辨识的方法,所述方法包括:接收包括第一信道和第二信道的多信道音频信号,其中所述第一信道和第二信道使用波束形成器和麦克风阵列来创建,所述第一信道表示来自第一方向的音频,并且所述第二信道表示来自第二方向的音频;创建用于所述第一信道的特征矢量的第一序列以及用于所述第二信道的特征矢量的第二序列;使用特征矢量的所述第一序列以及特征矢量的所述第二序列执行语音辨识,其中执行语音辨识包括:使用语音辨识模型以及特征矢量的所述第一序列的第一特征矢量生成第一假设;使用所述语音辨识模型以及特征矢量的所述第二序列的第二特征矢量生成第二假设,其中在语音辨识结果网络中所述第二假设在所述第一假设后面。

【技术特征摘要】
【国外来华专利技术】2013.09.27 US 14/039,3831.一种用于执行语音辨识的方法,所述方法包括:接收包括第一信道和第二信道的多信道音频信号,其中所述第一信道和第二信道使用波束形成器和麦克风阵列来创建,所述第一信道表示来自第一方向的音频,并且所述第二信道表示来自第二方向的音频;创建用于所述第一信道的特征矢量的第一序列以及用于所述第二信道的特征矢量的第二序列;使用特征矢量的所述第一序列以及特征矢量的所述第二序列执行语音辨识,其中执行语音辨识包括:使用语音辨识模型以及特征矢量的所述第一序列的第一特征矢量生成第一假设;确定用于所述第一假设的第一置信度分数;使用所述语音辨识模型以及特征矢量的所述第二序列的第二特征矢量生成第二假设,其中在语音辨识结果网络中所述第二假设在所述第一假设后面;确定用于所述第二假设的第二置信度分数;确定所述第一置信度分数大于所述第二置信度分数;使用所述第一假设确定语音辨识输出;确定所述第一方向与说话者的方向相关联;在稍后的时间确定与来自所述第一方向的进一步的音频相对应的特征矢量的新序列;对特征矢量的所述新序列执行语音辨识以获得新的假设;以及增加所述新的假设的置信度分数。2.根据权利要求1所述的方法,其还包括至少部分地基于所述第一信道的音频的特性选择所述第一信道。3.根据权利要求2所述的方法,其中所述特性包括所述第一信道的所述音频的能量或者所述第一信道的所述音频中的语音的存在。4.根据权利要求1所述的方法,其中:所述多信道音频信号还包括第三信道;所述方法还包括创建用于所述第三信道的特征矢量的第三序列;其中特征矢量的所述第三序列对应于与特征矢量的所述第一序列相同的时间;以及执行所述语音辨识还包括:使用语音辨识模型以及特征矢量的所述第三序列的第三特征矢量生成第三假设,其中在所述语音辨识结果网络中所述第三假设的生成基本上与所述第一假设的生成同时进行;使用所述说话者的所述方向确定用于所述第三假设的第三置信度分数;基于所述第一置信度分数高于所述第三置信度分数,选择所述第一假设而不是所述第三假设。5.根据权利要求1所述的方法,其中所述第一假设包括隐马尔可夫模型状态、连贯的音素、音素或者词语。6.一种计算设备,其包括:至少一个处理器;存储器设备,其包括可操作来由所述至少一个处理器执行以便执行一组动作的指令,所述指令配置所述至少一个处理器:接收包括第一信道和第二信道的多信道音频信号,所述第一信道和第二信道使用波束形成器以及麦克风阵列来创建,所述第一信道表示来自第一方向的音频,并且所述第二信道表示来自第二方向的音频;创建用于所述第一信道的特征矢量的第一序列以及用于所述第二信道的特征矢量的第二序列;处理特征矢量的所述第一序列的第一特征矢量以生成第一语音辨识假设,其中所述第一特征矢量对应于第一帧;处理特征矢量的所述第二序列的第二特征矢量以生成第二语音辨识假设,其中所述第二特征矢量对应于第二帧,第一帧和第二帧对应于第一时间;确定用于所述第一语音辨识假设的第一置信度分数;确定用于所述第二语音辨识假设的第二置信度分数;基于所述...

【专利技术属性】
技术研发人员:迈克尔·马克西米利安·伊曼纽尔·比萨尼尼科·斯特罗姆比约恩·霍夫迈斯特赖安·保罗·托马斯
申请(专利权)人:亚马逊技术公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1