带有多向解码的语音辨识器制造技术

技术编号：13346332 阅读：49 留言：0更新日期：2016-07-14 16:07

在一种自动化语音辨识(ASR)处理系统中，ASR处理可以被配置来基于从波束形成器接收的音频的多信道处理语音。所述ASR处理系统可以包括麦克风阵列和所述波束形成器以便输出音频的多个信道，以使得每个信道在特定的方向上隔离音频。多信道音频信号可以包括来自一个或多个说话者的说出的话语/语音以及未期望的音频，诸如来自家用电器的噪声。ASR设备可以同时对多信道音频执行语音辨识以便提供更准确的语音辨识结果。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】带有多向解码的语音辨识器
技术介绍
人机交互已经发展到这样的程度：人类可以控制计算设备，并且通过说话向这些设备提供输入。计算设备采用技术以便基于接收的音频输入的各种质量来识别人类用户说出的词语。此类技术被称为语音辨识或者自动语音辨识(ASR)。语音辨识与语言处理技术相结合可允许用户控制计算设备以便基于用户的说出的命令执行任务。语音辨识还可以将用户的语音转换成文本数据，所述文本数据接着可被提供至各种基于文本的程序和应用。计算机、手持式设备、电话计算机系统、信息亭以及改善人机交互的各种其他设备可以使用语音辨识。附图说明为了更完整地理解本公开，现在结合附图参考以下描述。图1示出根据本公开的一个方面的用于解码来自波束形成器的音频的多个信道的一种技术。图2示出根据本公开的一个方面的用于与分布式语音辨识一起使用的计算机网络。图3是概念性地示出根据本公开的一个方面的用于语音辨识的设备的框图。图4示出根据本公开的一个方面的被处理的音频波形。图5示出根据本公开的一个方面的音素处理。图6示出根据本公开的一个方面的隐马尔可夫模型中的音素处理。图7示出根据本公开的一个方面的词语结果网络。图8示出根据本公开的一个方面的语音辨识点阵。图9示出根据本公开的一个方面的用于语音辨识的神经网络。图10示出根据本公开的一个方面的用于语音辨识的神经网络。图11示出根据本公开的一个方面的HMM结果网络。图12示出根据本公开的方面的用于基于解码从波束形成器接收的音频的多个信道处理语音的方法。具体实施方式自动语音辨识(ASR)技术使得用户能够对着音频捕获设备(例如，音频输入/捕获元件和/或麦克风)说话并且具...

【技术保护点】
一种用于执行语音辨识的方法，所述方法包括：接收包括第一信道和第二信道的多信道音频信号，其中所述第一信道和第二信道使用波束形成器和麦克风阵列来创建，所述第一信道表示来自第一方向的音频，并且所述第二信道表示来自第二方向的音频；创建用于所述第一信道的特征矢量的第一序列以及用于所述第二信道的特征矢量的第二序列；使用特征矢量的所述第一序列以及特征矢量的所述第二序列执行语音辨识，其中执行语音辨识包括：使用语音辨识模型以及特征矢量的所述第一序列的第一特征矢量生成第一假设；使用所述语音辨识模型以及特征矢量的所述第二序列的第二特征矢量生成第二假设，其中在语音辨识结果网络中所述第二假设在所述第一假设后面。

【技术特征摘要】
【国外来华专利技术】2013.09.27 US 14/039,3831.一种用于执行语音辨识的方法，所述方法包括：接收包括第一信道和第二信道的多信道音频信号，其中所述第一信道和第二信道使用波束形成器和麦克风阵列来创建，所述第一信道表示来自第一方向的音频，并且所述第二信道表示来自第二方向的音频；创建用于所述第一信道的特征矢量的第一序列以及用于所述第二信道的特征矢量的第二序列；使用特征矢量的所述第一序列以及特征矢量的所述第二序列执行语音辨识，其中执行语音辨识包括：使用语音辨识模型以及特征矢量的所述第一序列的第一特征矢量生成第一假设；确定用于所述第一假设的第一置信度分数；使用所述语音辨识模型以及特征矢量的所述第二序列的第二特征矢量生成第二假设，其中在语音辨识结果网络中所述第二假设在所述第一假设后面；确定用于所述第二假设的第二置信度分数；确定所述第一置信度分数大于所述第二置信度分数；使用所述第一假设确定语音辨识输出；确定所述第一方向与说话者的方向相关联；在稍后的时间确定与来自所述第一方向的进一步的音频相对应的特征矢量的新序列；对特征矢量的所述新序列执行语音辨识以获得新的假设；以及增加所述新的假设的置信度分数。2.根据权利要求1所述的方法，其还包括至少部分地基于所述第一信道的音频的特性选择所述第一信道。3.根据权利要求2所述的方法，其中所述特性包括所述第一信道的所述音频的能量或者所述第一信道的所述音频中的语音的存在。4.根据权利要求1所述的方法，其中：所述多信道音频信号还包括第三信道；所述方法还包括创建用于所述第三信道的特征矢量的第三序列；其中特征矢量的所述第三序列对应于与特征矢量的所述第一序列相同的时间；以及执行所述语音辨识还包括：使用语音辨识模型以及特征矢量的所述第三序列的第三特征矢量生成第三假设，其中在所述语音辨识结果网络中所述第三假设的生成基本上与所述第一假设的生成同时进行；使用所述说话者的所述方向确定用于所述第三假设的第三置信度分数；基于所述第一置信度分数高于所述第三置信度分数，选择所述第一假设而不是所述第三假设。5.根据权利要求1所述的方法，其中所述第一假设包括隐马尔可夫模型状态、连贯的音素、音素或者词语。6.一种计算设备，其包括：至少一个处理器；存储器设备，其包括可操作来由所述至少一个处理器执行以便执行一组动作的指令，所述指令配置所述至少一个处理器：接收包括第一信道和第二信道的多信道音频信号，所述第一信道和第二信道使用波束形成器以及麦克风阵列来创建，所述第一信道表示来自第一方向的音频，并且所述第二信道表示来自第二方向的音频；创建用于所述第一信道的特征矢量的第一序列以及用于所述第二信道的特征矢量的第二序列；处理特征矢量的所述第一序列的第一特征矢量以生成第一语音辨识假设，其中所述第一特征矢量对应于第一帧；处理特征矢量的所述第二序列的第二特征矢量以生成第二语音辨识假设，其中所述第二特征矢量对应于第二帧，第一帧和第二帧对应于第一时间；确定用于所述第一语音辨识假设的第一置信度分数；确定用于所述第二语音辨识假设的第二置信度分数；基于所述...

【专利技术属性】
技术研发人员：迈克尔·马克西米利安·伊曼纽尔·比萨尼，尼科·斯特罗姆，比约恩·霍夫迈斯特，赖安·保罗·托马斯，
申请(专利权)人：亚马逊技术公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人