使用神经网络加速器的特征提取制造技术

技术编号：19748225 阅读：16 留言：0更新日期：2018-12-12 05:15

本申请公开了使用神经网络加速器的特征提取。描述特征提取用于使用神经网络加速器进行语音识别。在一个示例中，接收音频剪辑用于特征提取。使用硬件神经网络加速器的矩阵‑矩阵乘法，对音频剪辑执行多个特征提取操作，并且产生用于语音识别的特征。

全部详细技术资料下载

【技术实现步骤摘要】
使用神经网络加速器的特征提取
本说明书涉及语音识别领域，并且具体涉及使用硬件加速实现语音识别。
技术介绍
电子设备用户界面(UI)的世界正在发展。以前，计算机交互使用键盘、鼠标和显示器。而后，智能电话革命到来，并引起了朝着触摸界面的转换。今天，当越来越多人正在智能电话和台式电脑中使用音频数字助理时，用于语音UI的语音转文本应用的重要性正在增长。除了智能电话之外，语音UI在小型可穿戴设备和家庭自动化设备中也获得了更大的发展势头，该小型可穿戴设备和家庭自动化设备在大多数情况下根本不具有显示器。作为语音UI的主要部分的自动语音识别(ASR)系统在MIPS(每秒百万条指令)和存储器的情境中要求很高。因此，许多设备将语音识别部署为远程服务。典型的智能电话或智能中枢记录用户语音，将该语音发送至服务器，然后基于来自该服务器的语音接收经识别的语音或命令。这允许复杂的语音识别任务在大型的、强大的服务器上被执行，这些服务器可以在不影响用户或用户硬件的情况下进行更新和改进。对于网络请求，例如“天气预报是什么？”，没有增加的延迟。该请求必须由远程服务应答，因此用于与远程服务器通信的时间不显著增加至延迟。对于本地命令，例如“打开灯”，将音频发送至服务器以及接收经识别的语音或灯控制命令中的延迟可能是能引起注意的。对于一些设备而言，设备的性质可能要求更快的响应。因此，应努力在设备本地实现ASR。大多数常见的ASR实现是纯软件。然而，在电池尺寸处理能力小的小型便携式设备(诸如，可穿戴设备)上很难满足软件ASR要求。为了解决小电池容量和小型处理器的问题，不同类型的低功率硬件(HW)加速器已...

【技术保护点】
1.一种用于语音识别的特征提取方法，包括：接收用于特征提取的音频剪辑；使用硬件神经网络加速器的矩阵‑矩阵乘法，对所述音频剪辑执行多个特征提取操作；以及生成用于语音识别的特征。

【技术特征摘要】
2017.05.31 US 15/609,3001.一种用于语音识别的特征提取方法，包括：接收用于特征提取的音频剪辑；使用硬件神经网络加速器的矩阵-矩阵乘法，对所述音频剪辑执行多个特征提取操作；以及生成用于语音识别的特征。2.如权利要求1所述的方法，其特征在于，所述特征包括系数。3.如权利要求1或2所述的方法，其特征在于，所述系数为梅尔滤波倒谱系数。4.如上述权利要求中的任何一项或多项所述的方法，其特征在于，进一步包括：使用用于声学评分的神经网络对建模为分段线性函数的特征提取执行非线性变换。5.如上述权利要求中的任何一项或多项所述的方法，其特征在于，进一步包括：缩放中间值以减小矩阵值。6.如权利要求5所述的方法，其特征在于，所述缩放包括：使用矩阵-矩阵乘法来确定和的对数。7.如上述权利要求中的任何一项或多项所述的方法，其特征在于，所述特征提取操作包括执行梅尔滤波倒谱系数MFCC特征提取。8.如权利要求7所述的方法，其特征在于，使用值1或0来执行所述MFCC的窗口化，以将所接收的流分割为帧。9.如权利要求7或8所述的方法，其特征在于，使用所述神经网络的乘法硬件来执行所述MFCC的离散傅立叶变换、功率谱映射和离散余弦变换。10.如权利要求9所述的方法，其特征在于，所述离散余弦变换生成系数，并且其中，使用所述神经网络硬件的矩阵-矩阵乘法来对所述系数滤波并合并所述系数，以应用到用于语音识别的声学模型。11.如权利要求7-10中的任何一项或多项所述的方法，其特征在于，进一步包括：使用所述硬件神经网络加速器的分段线性函数执行所述MFCC的非线性函数变换。12.如上述权利要求中的任何一项或多项所述的方法，其特征在于，执行所述特征提取操作包括通过以下操作预处理所述音频剪辑：对所述音频剪辑窗口化；将经窗口化的剪辑作为输入应用于神经网络硬件层以确定平均值；以及将所述平均...

【专利技术属性】
技术研发人员：M·克派斯，P·罗森，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人