当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于自动语音识别的使用外推的跳帧和按需输出的神经网络制造技术

技术编号:15287479 阅读:419 留言:0更新日期:2017-05-10 10:22
讨论了与实现用于语音识别系统的神经网络有关的技术。这些技术可以包括实现使用近似跳过帧进行的跳帧和/或按需距离,使得经由神经网络或近似技术仅提供语音解码器所需的那些输出。

For extrapolation using automatic speech recognition of frame skipping and according to neural network output

The technologies related to the realization of neural networks for speech recognition systems are discussed. These techniques can include using approximate skipped frames of skipping and / or on-demand distance, so that only those output speech decoder required by neural networks or approximation techniques.

【技术实现步骤摘要】
【国外来华专利技术】优先权要求本申请要求2014年9月23日提交的题为“FRAMESKIPPINGWITHEXTRAPOLATIONANDOUTPUTSONDEMANDNEURALNETWORKFORAUTOMATICSPEECHRECOGNITION”的美国专利申请序列号14/493,434的优先权,后者通过引用整体合并于此。
技术介绍
包括深度神经网络在内的神经网络可以用于机器学习和感知与认知系统。这些神经网络可以用在各种实现方式中,例如语音识别系统。例如,神经网络可以包括神经元或节点的互连层。每层的输入值包括对系统的输入(例如,在输入层处)或来自神经网络中的前一层的输出。来自神经网络的输出层的输出值可以包括输出值、距离值或分类值等,使得可以经由神经网络和/或附加的处理来对神经网络的输入进行分类。这些神经网络处理和分类可以用于执行用更标准的基于规则的处理系统可能是难以执行或不可能执行的分类或其它任务。如所讨论的,可以在自动语音识别(ASR)系统中实现这些神经网络,并且在某些实现方式中,它们可能是这类系统的最重要的组件。在实时应用中当前的神经网络的问题在于,评估神经网络所需的计算量大。为了解决这一问题,某些当前的实现方式将神经网络计算从设备的中央处理单元(CPU)卸载到设备的图形处理单元(GPU)。然而,这种卸载可能导致与正运行在该设备或设备的相机等上的其它GPU密集型应用(例如游戏)冲突。此外,密集地使用设备的GPU会增加功率使用率,由此限制移动设备的电池寿命。在其它实现方式中,可以使用单指令多数据(SIMD)平台和/或优化,例如批量惰性求值模型(其可以将计算推迟,直到需要时)。然而,这些实现方式可能使分类精度降低。因此,现有技术并没有提供实时、高效且精确的神经网络实现方式。随着在例如语音识别中对利用经由神经网络进行的分类的期望变得更广泛,这些问题可能变得关键。附图说明在附图中通过示例的方式而非通过限制的方式示出在此所描述的内容。为了说明的简明性和清楚性,附图所示的要素不一定按比例绘制。例如,为了清楚,一些要素的尺寸可能相对于其它要素被夸大。此外,在认为适当的情况下,在附图之间重复了标号,以指示对应的或类似的要素。在附图中:图1是用于提供语音识别的示例设置的说明性示图;图2是用于提供语音识别的示例系统的说明性示图;图3是示例距离值计算模块的说明性示图;图4是示例神经网络的说明性示图;图5示出评估和跳帧的示例时间线;图6是示出使用跳帧和距离值近似估计来确定距离值的示例过程的流程图;图7是示例距离值计算模块的说明性示图;图8是示例神经网络的说明性示图;图9是示出使用跳帧、按需距离(distancesondemand)和距离值近似估计来确定距离值的示例过程的流程图;图10是用于实现跳帧和/或按需距离的示例系统的说明性示图;图11是示出用于提供自动语音识别的示例过程的流程图;图12是用于提供语音识别的示例系统的说明性示图;图13是示例系统的说明性示图;以及图14示出全部根据本公开的至少一些实现方式所布置的示例设备。具体实施方式现在参照附图描述一个或多个实施例或实现方式。虽然讨论特定配置和布置,但是应理解,这仅是为了说明性目的而进行的。本领域技术人员应理解,在不脱离说明书的精神和范围的情况下,可以采用其它配置和布置。对本领域技术人员显而易见的是,也可以在除了在此所描述之外的各种其它系统和应用中采用在此所描述的技术和/或布置。虽然以下描述阐述了可以在诸如片上系统(SoC)架构的架构中展现的各种实现方式,但是在此所描述的技术和/或布置的实现方式不限于特定架构和/或计算系统,并且可以通过用于类似目的的任何架构和/或计算系统来实现。例如,采用例如多个集成电路(IC)芯片和/或封装的各种架构,和/或各种计算设备和/或消费者电子(CE)设备(例如机顶盒、智能电话等),可以实现在此所描述的技术和/或布置。此外,虽然以下描述可能阐述了大量具体细节,例如系统组件的逻辑实现方式、类型和相互关系、逻辑分区/集成选取等,但是可以在没有这些具体细节的情况下实施所要求的主题。在其它实例中,为了不掩盖在此所公开的内容,可能没有详细示出某些内容,例如控制结构和全软件指令序列。可以在硬件、固件、软件或其任何组合中实现在此所公开的内容。在此所公开的内容也可以实现为机器可读介质上所存储的指令,这些指令可以由一个或多个处理器读取并执行。计算机可读介质可以包括用于存储或发送机器(例如计算设备)可读形式的信息的任何介质和/或机构。例如,机器可读介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质;光存储介质;闪存设备;电、光、声或其它形式的传播信号(例如载波、红外信号、数字信号等),以及其它介质。说明书中对“一个实现方式”、“实现方式”、“示例实现方式”等的引用指示,所描述的实现方式可以包括特定特征、结构或特性,但是每一实施例可以不一定包括该特定特征、结构或特性。此外,这些短语不一定指代同一实现方式。此外,当结合一个实施例描述特定特征、结构或特性时,应当指出,在本领域技术人员的知识内,可以结合其它实现方式实现这种特征、结构或特征,无论是否在此明确地描述。在此所描述的方法、设备、装置、计算平台以及制造品与为语音识别实现的神经网络有关,并且在一些示例中,与经由神经网络实现的跳帧技术和按需输出值技术有关。如上所述,实时实现神经网络对于用户而言可以是有利的,但是由于计算资源有限以及密集地使用电池资源,上述实现可能是困难的。此外,尝试减少这些资源使用率可能会使分类结果不精确。优化神经网络与经由数据中心主管的服务中的总经营成本和经由移动设备所实现的应用中的电池寿命可能具有直接相关性。于在此所讨论的一些实施例中,可以经由神经网络来实现跳帧技术。例如,当使用跳帧时,可以针对每第N个时间实例(timeinstance)或帧计算或确定神经网络输出(例如,距离值)。对于神经网络距离值没有被确定的时间实例,可以基于神经网络确定的来自一个或多个在先时间实例或帧的距离值来近似估计(approximate)这些距离值。例如,评估神经网络在计算上可能是复杂的,因为在一些示例中,在该时间实例或者针对该帧评估的是整个神经网络。可以计算通过近似方法确定的距离值,其计算复杂度少得多(并且不评估神经网络)。例如,可以通过外推技术,使用一个或多个在先帧的距离值来确定近似距离值。在一些示例中,外推可以包括基于来自两个之前的帧的距离值进行的线性外推。如在此所使用的,评估帧或非跳过帧(non-skipframe)指代通过评估神经网络来确定的距离值,而跳过帧指代通过近似技术来确定的距离值。如在此进一步所讨论的,这种跳帧结合对跳过帧的距离值进行近似估计可以节省大量计算,而不以语音识别精度为代价,或者代价最小。此外,于在此所讨论的一些实施例中,可以经由神经网络来实现按需的神经网络输出(例如,距离值)(例如,按需距离值或DOD)技术。例如,当使用按需距离技术时,诸如语音解码器的下游解码器针对一时间实例或帧可以提供请求的距离值,请求的距离值是所有可用距离值中的子集。例如,对于特定时间实例,诸如Viterbi束搜索解码器的语音解码器可以仅需要从神经网络可获得的距离值的子集本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/21/201580044879.html" title="用于自动语音识别的使用外推的跳帧和按需输出的神经网络原文来自X技术">用于自动语音识别的使用外推的跳帧和按需输出的神经网络</a>

【技术保护点】
一种计算机实现的用于提供自动语音识别的方法,包括:针对第一时间实例,评估神经网络以确定与所述第一时间实例相关联的至少一个第一距离值,其中,所述至少一个第一距离值包括所述神经网络的输出;针对第二时间实例,至少部分地基于所述第一距离值来近似估计至少一个第二距离值,其中,针对所述第二时间实例不评估所述神经网络;以及至少部分地基于所述第一距离值和所述第二距离值来确定文本元素序列。

【技术特征摘要】
【国外来华专利技术】2014.09.23 US 14/493,4341.一种计算机实现的用于提供自动语音识别的方法,包括:针对第一时间实例,评估神经网络以确定与所述第一时间实例相关联的至少一个第一距离值,其中,所述至少一个第一距离值包括所述神经网络的输出;针对第二时间实例,至少部分地基于所述第一距离值来近似估计至少一个第二距离值,其中,针对所述第二时间实例不评估所述神经网络;以及至少部分地基于所述第一距离值和所述第二距离值来确定文本元素序列。2.根据权利要求1所述的方法,还包括:针对所述第一时间实例生成一个或多个输出索引,其中,所述第一距离值与所述输出索引中的第一输出索引相关联,其中,所述神经网络包括具有多个输出层节点的输出层,并且其中,针对所述第一时间实例评估所述神经网络包括:仅评估所述多个输出层节点中的与所述输出索引相关联的子集。3.根据权利要求2所述的方法,其中,所述神经网络还包括具有最末隐藏层节点的最末隐藏层,并且其中,针对所述第一时间实例评估所述神经网络包括:评估所有的最末隐藏层节点。4.根据权利要求1所述的方法,其中,近似估计所述第二距离值包括:至少部分地基于所述第一距离值,基于线性函数、非线性函数或方差函数中的至少一个函数来外推所述第二距离值。5.根据权利要求1所述的方法,其中,近似估计所述第二距离值包括:基于所述第一距离值和与第三时间实例相关联的第三距离值来外推所述第二距离值,其中,所述第一时间实例在所述第二时间实例之前,并且所述第三时间实例在所述第一时间实例之前。6.根据权利要求5所述的方法,其中,外推所述第二距离值包括:基于所述第一距离值和所述第三距离值,经由线性函数外推所述第二距离值,其中,所述第三距离值是基于对所述神经网络的评估来确定的。7.根据权利要求6所述的方法,其中,所述线性函数包括将所述第一距离值加上所述第一距离值与所述第三距离值之间的差值的一半。8.根据权利要求1所述的方法,还包括:针对所述第二时间实例生成一个或多个输出索引,其中,用于所述第二时间实例的第三距离值与所述输出索引中的第一输出索引相关联,其中,所述神经网络包括具有多个输出层节点的输出层和具有多个最末隐藏层节点的最末隐藏层,并且其中,所述针对第一时间实例评估神经网络包括:评估所述最末隐藏层的所有最末隐藏层节点,以生成多个最末隐藏层值;在所述第二时间实例处,通过基于所述最末隐藏层值评估所述多个输出层节点中的与第四距离值相关联的输出层节点,来确定用于所述第一时间实例的第四距离值;以及针对所述第二时间实例,至少部分地基于所述第四距离值来近似估计所述第三距离值。9.根据权利要求1所述的方法,其中,所述神经网络包括具有多个输出层节点的输出层,并且其中,针对所述第一时间实例评估所述神经网络包括:评估所述多个输出层节点中的全部节点。10.根据权利要求1所述的方法,其中,所述第一时间实例与神经网络评估帧相关联,所述第二时间实例与跳过帧相关联,并且其中,一个、两个或三个附加的跳过帧在所述评估帧与所述跳过帧之间。11.根据权利要求1所述的方法,其中,所述第一时间实例与神经网络评估帧相关联,所述第二时间实例与跳过帧相关联,所述方法还包括:基于可用计算资源或当前的实时因子中的至少一个来确定跳帧速率;以及基于所述跳帧速率,在所述评估帧与所述跳过帧之间提供附加的跳过帧。12.根据权利要求1所述的方法,其中,确定文本元素序列包括:经由Viterbi束搜索解码器来确定文本元素序列。13.根据权利要求1所述的方法,还包括:将接收到的语音转换成语音记录;提取与所述语音记录的时间窗口相关联的特征矢量;以及提供所述特征矢量,作为所述神经网络的输入。14.一种用于提供自动语音识别的系统,包括:存储器,被配置为:存储语音识别数据;和中央处理单元,耦合到所述存储器,其中,所述中央处理单元包括:神经网络电路,被配置为:针对第一时间实例实现神经网络,以确定与所述第一时间实例相关联的至少一个第一距离值;距离值近似估计电路,被配置为:针对第二时间实例,至少部分地基于所述第一距离值来近似估计至少一个第二距离值;和语音解码器电路,被配置为:至少部分地基于所述第一距离值和所述第二距离值来确定文本元素序列。15.根据权利要求14所述的系统,其中,所述语音解码器电路还被配置为:针对所述第一时间实例生成一个或多个输出索引,其中,所述第一距离值与所述输出索引中的第一输出索引相关联,其中,所述神经网络包括具有多个输出层节点的输出层,并且其中,所述神经网络电路被配置为:仅评估所述多个输出层节点中的与所述第一时间实例的输出索引相关联的子集。16.根据权利要求15所述的系统,其中,所述神经网络还包括具有最末隐藏层节点的最末隐藏层,并且其中,所述神经网络电路被配...

【专利技术属性】
技术研发人员:J·鲍尔P·罗森G·施特默尔
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1