The technologies related to the realization of neural networks for speech recognition systems are discussed. These techniques can include using approximate skipped frames of skipping and / or on-demand distance, so that only those output speech decoder required by neural networks or approximation techniques.
【技术实现步骤摘要】
【国外来华专利技术】优先权要求本申请要求2014年9月23日提交的题为“FRAMESKIPPINGWITHEXTRAPOLATIONANDOUTPUTSONDEMANDNEURALNETWORKFORAUTOMATICSPEECHRECOGNITION”的美国专利申请序列号14/493,434的优先权,后者通过引用整体合并于此。
技术介绍
包括深度神经网络在内的神经网络可以用于机器学习和感知与认知系统。这些神经网络可以用在各种实现方式中,例如语音识别系统。例如,神经网络可以包括神经元或节点的互连层。每层的输入值包括对系统的输入(例如,在输入层处)或来自神经网络中的前一层的输出。来自神经网络的输出层的输出值可以包括输出值、距离值或分类值等,使得可以经由神经网络和/或附加的处理来对神经网络的输入进行分类。这些神经网络处理和分类可以用于执行用更标准的基于规则的处理系统可能是难以执行或不可能执行的分类或其它任务。如所讨论的,可以在自动语音识别(ASR)系统中实现这些神经网络,并且在某些实现方式中,它们可能是这类系统的最重要的组件。在实时应用中当前的神经网络的问题在于,评估神经网络所需的计算量大。为了解决这一问题,某些当前的实现方式将神经网络计算从设备的中央处理单元(CPU)卸载到设备的图形处理单元(GPU)。然而,这种卸载可能导致与正运行在该设备或设备的相机等上的其它GPU密集型应用(例如游戏)冲突。此外,密集地使用设备的GPU会增加功率使用率,由此限制移动设备的电池寿命。在其它实现方式中,可以使用单指令多数据(SIMD)平台和/或优化,例如批量惰性求值模型(其可以将计算推迟,直到需要时) ...
【技术保护点】
一种计算机实现的用于提供自动语音识别的方法,包括:针对第一时间实例,评估神经网络以确定与所述第一时间实例相关联的至少一个第一距离值,其中,所述至少一个第一距离值包括所述神经网络的输出;针对第二时间实例,至少部分地基于所述第一距离值来近似估计至少一个第二距离值,其中,针对所述第二时间实例不评估所述神经网络;以及至少部分地基于所述第一距离值和所述第二距离值来确定文本元素序列。
【技术特征摘要】
【国外来华专利技术】2014.09.23 US 14/493,4341.一种计算机实现的用于提供自动语音识别的方法,包括:针对第一时间实例,评估神经网络以确定与所述第一时间实例相关联的至少一个第一距离值,其中,所述至少一个第一距离值包括所述神经网络的输出;针对第二时间实例,至少部分地基于所述第一距离值来近似估计至少一个第二距离值,其中,针对所述第二时间实例不评估所述神经网络;以及至少部分地基于所述第一距离值和所述第二距离值来确定文本元素序列。2.根据权利要求1所述的方法,还包括:针对所述第一时间实例生成一个或多个输出索引,其中,所述第一距离值与所述输出索引中的第一输出索引相关联,其中,所述神经网络包括具有多个输出层节点的输出层,并且其中,针对所述第一时间实例评估所述神经网络包括:仅评估所述多个输出层节点中的与所述输出索引相关联的子集。3.根据权利要求2所述的方法,其中,所述神经网络还包括具有最末隐藏层节点的最末隐藏层,并且其中,针对所述第一时间实例评估所述神经网络包括:评估所有的最末隐藏层节点。4.根据权利要求1所述的方法,其中,近似估计所述第二距离值包括:至少部分地基于所述第一距离值,基于线性函数、非线性函数或方差函数中的至少一个函数来外推所述第二距离值。5.根据权利要求1所述的方法,其中,近似估计所述第二距离值包括:基于所述第一距离值和与第三时间实例相关联的第三距离值来外推所述第二距离值,其中,所述第一时间实例在所述第二时间实例之前,并且所述第三时间实例在所述第一时间实例之前。6.根据权利要求5所述的方法,其中,外推所述第二距离值包括:基于所述第一距离值和所述第三距离值,经由线性函数外推所述第二距离值,其中,所述第三距离值是基于对所述神经网络的评估来确定的。7.根据权利要求6所述的方法,其中,所述线性函数包括将所述第一距离值加上所述第一距离值与所述第三距离值之间的差值的一半。8.根据权利要求1所述的方法,还包括:针对所述第二时间实例生成一个或多个输出索引,其中,用于所述第二时间实例的第三距离值与所述输出索引中的第一输出索引相关联,其中,所述神经网络包括具有多个输出层节点的输出层和具有多个最末隐藏层节点的最末隐藏层,并且其中,所述针对第一时间实例评估神经网络包括:评估所述最末隐藏层的所有最末隐藏层节点,以生成多个最末隐藏层值;在所述第二时间实例处,通过基于所述最末隐藏层值评估所述多个输出层节点中的与第四距离值相关联的输出层节点,来确定用于所述第一时间实例的第四距离值;以及针对所述第二时间实例,至少部分地基于所述第四距离值来近似估计所述第三距离值。9.根据权利要求1所述的方法,其中,所述神经网络包括具有多个输出层节点的输出层,并且其中,针对所述第一时间实例评估所述神经网络包括:评估所述多个输出层节点中的全部节点。10.根据权利要求1所述的方法,其中,所述第一时间实例与神经网络评估帧相关联,所述第二时间实例与跳过帧相关联,并且其中,一个、两个或三个附加的跳过帧在所述评估帧与所述跳过帧之间。11.根据权利要求1所述的方法,其中,所述第一时间实例与神经网络评估帧相关联,所述第二时间实例与跳过帧相关联,所述方法还包括:基于可用计算资源或当前的实时因子中的至少一个来确定跳帧速率;以及基于所述跳帧速率,在所述评估帧与所述跳过帧之间提供附加的跳过帧。12.根据权利要求1所述的方法,其中,确定文本元素序列包括:经由Viterbi束搜索解码器来确定文本元素序列。13.根据权利要求1所述的方法,还包括:将接收到的语音转换成语音记录;提取与所述语音记录的时间窗口相关联的特征矢量;以及提供所述特征矢量,作为所述神经网络的输入。14.一种用于提供自动语音识别的系统,包括:存储器,被配置为:存储语音识别数据;和中央处理单元,耦合到所述存储器,其中,所述中央处理单元包括:神经网络电路,被配置为:针对第一时间实例实现神经网络,以确定与所述第一时间实例相关联的至少一个第一距离值;距离值近似估计电路,被配置为:针对第二时间实例,至少部分地基于所述第一距离值来近似估计至少一个第二距离值;和语音解码器电路,被配置为:至少部分地基于所述第一距离值和所述第二距离值来确定文本元素序列。15.根据权利要求14所述的系统,其中,所述语音解码器电路还被配置为:针对所述第一时间实例生成一个或多个输出索引,其中,所述第一距离值与所述输出索引中的第一输出索引相关联,其中,所述神经网络包括具有多个输出层节点的输出层,并且其中,所述神经网络电路被配置为:仅评估所述多个输出层节点中的与所述第一时间实例的输出索引相关联的子集。16.根据权利要求15所述的系统,其中,所述神经网络还包括具有最末隐藏层节点的最末隐藏层,并且其中,所述神经网络电路被配...
【专利技术属性】
技术研发人员:J·鲍尔,P·罗森,G·施特默尔,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。