当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用神经网络加速器的特征提取制造技术

技术编号:19748225 阅读:16 留言:0更新日期:2018-12-12 05:15
本申请公开了使用神经网络加速器的特征提取。描述特征提取用于使用神经网络加速器进行语音识别。在一个示例中,接收音频剪辑用于特征提取。使用硬件神经网络加速器的矩阵‑矩阵乘法,对音频剪辑执行多个特征提取操作,并且产生用于语音识别的特征。

【技术实现步骤摘要】
使用神经网络加速器的特征提取
本说明书涉及语音识别领域,并且具体涉及使用硬件加速实现语音识别。
技术介绍
电子设备用户界面(UI)的世界正在发展。以前,计算机交互使用键盘、鼠标和显示器。而后,智能电话革命到来,并引起了朝着触摸界面的转换。今天,当越来越多人正在智能电话和台式电脑中使用音频数字助理时,用于语音UI的语音转文本应用的重要性正在增长。除了智能电话之外,语音UI在小型可穿戴设备和家庭自动化设备中也获得了更大的发展势头,该小型可穿戴设备和家庭自动化设备在大多数情况下根本不具有显示器。作为语音UI的主要部分的自动语音识别(ASR)系统在MIPS(每秒百万条指令)和存储器的情境中要求很高。因此,许多设备将语音识别部署为远程服务。典型的智能电话或智能中枢记录用户语音,将该语音发送至服务器,然后基于来自该服务器的语音接收经识别的语音或命令。这允许复杂的语音识别任务在大型的、强大的服务器上被执行,这些服务器可以在不影响用户或用户硬件的情况下进行更新和改进。对于网络请求,例如“天气预报是什么?”,没有增加的延迟。该请求必须由远程服务应答,因此用于与远程服务器通信的时间不显著增加至延迟。对于本地命令,例如“打开灯”,将音频发送至服务器以及接收经识别的语音或灯控制命令中的延迟可能是能引起注意的。对于一些设备而言,设备的性质可能要求更快的响应。因此,应努力在设备本地实现ASR。大多数常见的ASR实现是纯软件。然而,在电池尺寸处理能力小的小型便携式设备(诸如,可穿戴设备)上很难满足软件ASR要求。为了解决小电池容量和小型处理器的问题,不同类型的低功率硬件(HW)加速器已添加到器件设计中。这允许诸如特征提取或声学评分之类要求高的工作负载被卸载至专用低功率硬件。附图说明各实施例作为示例而非限制在所附附图中示出,在附图中,同样的参考编号指代同样的要素。图1是根据实施例的语音识别系统的概览。图2是根据实施例的神经网络加速器的图。图3是根据实施例的用于在神经网络加速器上执行MFCC的硬件模块图。图4是根据实施例的在神经网络加速器上交织(interleaving)的图。图5是根据实施例的用于执行预处理的组件的图。图6是根据实施例的在神经网络加速器上的DNN的图。图7是根据实施例的在神经网络加速器上的对角线的图。图8是根据实施例的在神经网络加速器上的解交织的图。图9是根据实施例的在神经网络加速器上的RNN的图。图10是根据实施例的用于执行合并特征的组件的图。图11是根据实施例的包含使用神经网络加速器的语音识别系统的计算设备的框图。具体实施方式对于计算系统中的各种不同任务,已经开发了硬件加速器。一些系统具有用于图形渲染、用于神经网络、用于图像处理、用于语音识别以及用于其他任务的硬件加速器。每个加速器都需要一些电路系统,并且即使不正在被使用时也可能需要一些备用功率。在本说明书中,在神经网络加速器中执行例如梅尔滤波倒谱系数(MFCC)的声学特征提取,而不需要对该神经网络加速器硬件进行任何修改。使用现有的硬件也来执行ASR功能允许以更低的成本和更低的功率获得更快的ASR性能。通过将神经网络硬件加速器重新用于神经网络处理和特征提取两者,相对于设计和生产两种不同类型的加速器节省了管芯面积和功率两者。已经专门为利用梅尔滤波倒谱系数(MFCC)技术的特征提取专门开发了硬件加速器,但是这些加速器不适用于其他功能。MFCC是在自动语音识别(ASR)系统中使用的常见变换。MFCC试图从音频剪辑的倒谱表示导出系数。该剪辑被窗口化、变换至频域,并映射到梅尔刻度(Melscale)上,以与听觉感知类似。对经映射的功率求对数(log),并使用离散余弦变换(DCT)来生成表示频谱的每个窗口的系数的幅值。在一些额外的归一化或简化后,MFCC的系数随后被用作可以唯一地标识词语、音素等的特征。窗口、梅尔谱带和特定操作可以针对不同的应用进行修改。具有不同名称的其他类型的音频特征提取系统表示相对于这里所描述的内容的变体,并且还也受益于以下描述的技术。各种不同的滤波和归一化操作也可以添加到不同阶段的变换中。MFCC还与一些语音压缩和通信功能一起使用。特征提取是为短期信号创建一小组归一化特征的变换。与特征提取之前的纯音频信号相比,特征的数量要小得多并且更具描述性。在语音识别中,常见的帧尺寸大约为25ms。对于16KHz的采样率,25ms提供400个样本。MFCC技术可以为25ms的帧生成从13至39个特征。如此大量的样本需要大量的处理和存储器资源。在存储器中缓冲这些特征,而后这些特征用作声学评分模块的输入。神经网络和人工智能正被视为几乎任何困难的计算问题的答案。训练神经网络来近似确定性MFCC变换的结果是可能的。当该训练基于来自MFCC变换的输入和输出时,所得到的网络不给出满意的结果。甚至当结果与传统MFCC实现的结果相似,该神经网络的准确度也显著更低。尽管神经网络通常对于定义不明确的关联性任务执行良好,但是MFCC不是此类任务。如本文中所述,仅使用针对神经网络加速的硬件实现对ASR的高精确度。为此,MFCC方式被改变,并且以独特方式配置神经网络加速器。同时,声学模型不需要任何改变。如本文所述,系统的处理器将硬件重新配置成用于使用来自神经网络加速器的基本技术来执行MFCC操作中的一些MFCC操作,而不是训练网络来给出与目标特征提取变换相同的结果。如本文中所述,矩阵-矩阵乘法被应用于许多MFCC任务,并且非线性函数变换被建模为分段线性函数。这种方式提供了与经典实现方式匹配的精度,但使用经神经网络加速的基元。此方式可以被用作单独的特征提取模块的直接替代。通过重新使用神经网络硬件来加速语音识别系统的两个阶段,尤其是特征提取和声学评分,能以较低的成本生产语音识别或语音命令设备。尽管对于诸如可穿戴设备和物联网(IoT)设备的小型低功率设备而言益处最大,但任何设备均可以从更低成本和更简单的硬件中受益。可穿戴设备上的软件语音识别可能占用CPU计算资源中的大部分。利用本文描述的技术使用硬件加速将CPU使用减少十倍或更多,而无需特殊的特征提取硬件加速器。其他便携式设备可通过降低功耗并因此延长电池寿命而受益。如本文中所述,将MFCC方法转变为矩阵乘法、PWL近似,诸如激活函数和偏置。这些操作都可以作为用于DNN(深度神经网络)或其他类型的神经网络硬件的层计算的一部分来完成。神经网络加速器的训练和其他功能不是必需的。如所描述的,这可以被实现为28个小型层。可以手动地设置每个激活函数和权重值,以实现特征提取功能的每个部分。此外,设置层之间的一些连接,例如,来自两个层的输出是下一层的一个输入,并且来自一个层的输出被保存到用于下一个请求的缓冲器(前一层的输入)。另外,特征提取使用比用于许多神经网络加速器任务的常见值更大的值。这可能导致饱和。因此,特征提取值可以是经缩放的值,或者可以使用对数加法,例如,和的自然对数。这种缩放可使用本文中所提到的DNN或PWL来实现。图1是语音识别的概览,可以在可穿戴、便携式、或固定式设备上或者与服务器协作地执行该语音识别。讲话者102提供语音话语,该讲话者102对于设备可以是本地的,或可以是远程的。在产生特征向量的声学前端104接收该话语。该特征向量包本文档来自技高网...

【技术保护点】
1.一种用于语音识别的特征提取方法,包括:接收用于特征提取的音频剪辑;使用硬件神经网络加速器的矩阵‑矩阵乘法,对所述音频剪辑执行多个特征提取操作;以及生成用于语音识别的特征。

【技术特征摘要】
2017.05.31 US 15/609,3001.一种用于语音识别的特征提取方法,包括:接收用于特征提取的音频剪辑;使用硬件神经网络加速器的矩阵-矩阵乘法,对所述音频剪辑执行多个特征提取操作;以及生成用于语音识别的特征。2.如权利要求1所述的方法,其特征在于,所述特征包括系数。3.如权利要求1或2所述的方法,其特征在于,所述系数为梅尔滤波倒谱系数。4.如上述权利要求中的任何一项或多项所述的方法,其特征在于,进一步包括:使用用于声学评分的神经网络对建模为分段线性函数的特征提取执行非线性变换。5.如上述权利要求中的任何一项或多项所述的方法,其特征在于,进一步包括:缩放中间值以减小矩阵值。6.如权利要求5所述的方法,其特征在于,所述缩放包括:使用矩阵-矩阵乘法来确定和的对数。7.如上述权利要求中的任何一项或多项所述的方法,其特征在于,所述特征提取操作包括执行梅尔滤波倒谱系数MFCC特征提取。8.如权利要求7所述的方法,其特征在于,使用值1或0来执行所述MFCC的窗口化,以将所接收的流分割为帧。9.如权利要求7或8所述的方法,其特征在于,使用所述神经网络的乘法硬件来执行所述MFCC的离散傅立叶变换、功率谱映射和离散余弦变换。10.如权利要求9所述的方法,其特征在于,所述离散余弦变换生成系数,并且其中,使用所述神经网络硬件的矩阵-矩阵乘法来对所述系数滤波并合并所述系数,以应用到用于语音识别的声学模型。11.如权利要求7-10中的任何一项或多项所述的方法,其特征在于,进一步包括:使用所述硬件神经网络加速器的分段线性函数执行所述MFCC的非线性函数变换。12.如上述权利要求中的任何一项或多项所述的方法,其特征在于,执行所述特征提取操作包括通过以下操作预处理所述音频剪辑:对所述音频剪辑窗口化;将经窗口化的剪辑作为输入应用于神经网络硬件层以确定平均值;以及将所述平均...

【专利技术属性】
技术研发人员:M·克派斯P·罗森
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1