用于减少语音识别延迟的自适应帧批处理制造技术

技术编号:34716115 阅读:33 留言:0更新日期:2022-08-31 17:59
实施例可以包括收集第一批次的音频信号的声学特征帧,第一批次的声学特征帧的数目等于第一批次尺寸,将第一批次输入到语音识别网络,响应于检测由语音识别网络输出的单词假设,收集第二批次的音频信号的声学特征帧,第二批次的声学特征帧的数目等于第二批次尺寸,该第二批次尺寸大于第一批次尺寸,并且将第二批次输入到语音识别网络。批次输入到语音识别网络。批次输入到语音识别网络。

【技术实现步骤摘要】
【国外来华专利技术】用于减少语音识别延迟的自适应帧批处理

技术介绍

[0001]基于神经网络的模型通常被用来执行自动语音识别(ASR)。在一些示例中,训练基于神经网络的声学模型,以从输入音频帧中提取多元音素(senone)判别特征,并且基于所提取的特征对多元音素进行分类。解码器基于分类来生成单词假设,并且输出对应的文本。
[0002]输入音频帧可以被分批成两个或更多帧的批次,以允许联合处理和识别,目的是提高准确度和性能。然而,批处理要求系统在将批处理提交给ASR之前等待接收批次的所有帧。无论ASR的处理速度如何,这种等待都可导致不希望的用户感知延迟。
[0003]传统的ASR系统可以使用若干物理上不同的模型来满足给定部署内的不同延迟要求。这种方法倍增了处理器相关的训练和部署成本。希望系统在不诉诸并行模型的情况下改善延迟。
附图说明
[0004]图1A是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
[0005]图1B是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
[0006]图1C是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
[0007]图1D是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
[0008]图2是根据一些实施例的用于初始延迟敏感自适应批处理的过程的流程图。
[0009]图3A是根据一些实施例的在操作期间采用终端延迟敏感自适应批处理的语音识别系统的框图。<br/>[0010]图3B是根据一些实施例的在操作期间采用终端延迟敏感自适应批处理的语音识别系统的框图。
[0011]图4A到图4C包括根据一些实施例的用于初始和终端延迟敏感自适应批处理的过程的流程图。
[0012]图5A是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行(look

ahead

enabled)语音识别系统的框图。
[0013]图5B是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行语音识别系统的框图。
[0014]图5C是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行语音识别系统的框图。
[0015]图5D是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行语音识别系统的框图。
[0016]图6A是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应
先行的启用先行语音识别系统的框图。
[0017]图6B是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应先行的启用先行语音识别系统的框图。
[0018]图6C是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应先行的启用先行语音识别系统的框图。
[0019]图6D是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应先行的启用先行语音识别系统的框图。
[0020]图7A和图7B包括根据一些实施例的用于初始和延迟敏感的自适应批处理和自适应先行的过程的流程图。
[0021]图8是根据一些实施例的基于云的语音识别服务的框图。
[0022]图9是根据一些实施例的语音识别系统的框图。
具体实施方式
[0023]提供以下描述以使得本领域的任何人能够制造和使用所描述的实施例。然而,对于本领域普通技术人员来说,各种修改仍然是明显的。
[0024]根据一些实施例,被同时输入到声学模型的帧的数量(即,批次尺寸)在ASR处理期间被动态控制。例如,在生成单词假设之前使用小批次尺寸。使用小批次尺寸可以提供比大批次尺寸更低的延迟,因为收集小批次所需的时间比收集大批次相同尺寸的帧所需的时间更少。然后可以在生成单词假设之后增加批次尺寸,这可以提高处理效率,因为同时处理大数量的帧比处理较少数量的帧更具CPU效率和高速缓存效率。因此,可以快速向用户呈现单词假设,同时保留较大批次尺寸的大部分处理优势。
[0025]一些实施例可与在每批次输入帧内采用先行帧(look

ahead frames)的模型相结合地操作,其中先行帧的数目与输入帧的连续批次之间的重叠程度相关。这些实施例还可以如上所述动态控制批次尺寸,以提供低的初始用户感知延迟,并且在第一次假设之后,进一步提供改进的处理效率。
[0026]一些模型可操作以接收各种尺寸的输入批次并且包括各种数目的先行帧。通过响应于第一次假设而动态地增加批次尺寸,使用这种模型的实施例可以提供低的初始用户感知延迟,并且随后提供如上所述的改进的处理效率。此外,可以通过响应于第一次假设而增加先行帧的数目来实现提高的识别准确度。
[0027]在这方面,可以鉴于特定数目的先行帧来训练这种声学模型,该特定数目的先行帧大于最初使用的先行帧的数目。因此,尽管初始操作不是最理想的,但是将先行帧的数目改变为训练声学模型所基于的先行帧的数目可能导致提高的识别准确度。实施例还可以允许在保持批次尺寸不变的同时改变先行帧的数目。
[0028]附加地或替代地,一些实施例独立于假设生成来监控输入帧,以便检测语音结束状态。在检测到该状态时,可以减小批次尺寸以避免等待非语音帧,否则非语音帧将被添加到当前批次输入帧中。响应于检测到流结束、目标最大处理时间或其他条件,可以附加地或替代地减小批次尺寸。这样的实施例因此可以支持从批处理过程的早期退出,并且减少最终假设的生成中的延迟。
[0029]图1A图示了根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语
音识别系统100。系统100可以使用硬件和软件组件的任何合适组合来实现。系统100的每个图示功能或本文中所描述的每个功能可以由一个或多个计算设备(例如,计算机服务器)、存储设备(例如,硬盘或固态磁盘驱动器)和本领域已知的其他硬件来实现。这些组件可以被定位成彼此远离,并且可以是一个或多个云计算平台的元素,包括但不限于软件即服务、平台即服务、和基础设施即服务平台。根据一些实施例,一个或多个组件由执行一个或多个经训练的神经网络模型的一个或多个专用虚拟机来实现。
[0030]帧生成单元110接收音频信号并且生成与音频信号的相应帧相对应的帧级幅度谱或原始声学特征帧,如本领域已知的。例如,假设音频帧大小为25ms,帧生成单元110基于传入音频信号的前25ms生成第一原始声学特征帧s0。在这方面,图1A图示了基于传入音频信号的ASR的开始。
[0031]下一原始声学特征帧可以基于传入音频信号的下一25ms来生成。在一些实施例中,时间相邻的原始声学特征帧可以表示音频信号的重叠帧。例如,第一原始声学特征帧s0可以基于传入音频信号的前25ms来生成,而下一原始声学特征帧可以基于传入音频信号的15ms到40ms帧来生成,并且第三原始声学特征帧声学特征帧可以基于传入音频信号的30ms到55ms帧来生成。
[0032本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统,包括:处理单元;以及存储设备,所述存储设备包括程序代码,所述程序代码在由所述处理单元执行时使所述系统:确定用于处理音频信号的第一批次尺寸;收集第一批次,所述第一批次包括第一数目的所述音频信号的原始声学特征帧,所述第一数目等于所述第一批次尺寸;将所述第一批次输入到语音识别网络;基于由所述语音识别网络输出的单词假设来确定第二批次尺寸,所述第二批次尺寸大于所述第一批次尺寸;收集第二批次,所述第二批次包括第二数目的所述音频信号的声学特征帧,所述第二数目等于所述第二批次尺寸;以及将所述第二批次输入到所述语音识别网络。2.根据权利要求1所述的系统,其中基于所述单词假设来确定所述第二批次尺寸包括:检测由所述语音识别网络输出的第一非静默单词假设以及响应于所述检测来确定所述第二批次尺寸。3.根据权利要求1所述的系统,所述程序代码在由所述处理单元执行时使所述系统:收集多个批次,所述多个批次中的每个批次包括所述第一数目的所述音频信号的声学特征帧;将所述多个批次输入到所述语音识别网络,直到所述单词假设由所述语音识别网络输出。4.根据权利要求1所述的系统,所述程序代码在由所述处理单元执行时使所述系统:检测语音结束帧;以及减少声学特征帧的下一收集批次的尺寸,以将所述语音结束帧作为所述下一收集批次的最后一帧。5.根据权利要求1所述的系统,其中所述第一批次尺寸包括先行帧的第一数目,并且所述第一批次包括第一先行帧,所述第一批次的所述第一先行帧的数目等于所述先行帧的第一数目,所述程序代码在由所述处理单元执行时使所述系统:收集第三批次,所述第三批次包括所述第一数目的所述音频信号的声学特征帧,与所述第三批次的多个帧相关联的时间段和与所述第一批次的所述第一先行帧相关联的时间段重叠,其中确定所述第二批次尺寸包括:确定先行帧的第二数目,以及其中所述第二批次包括第二先行帧,所述第二批次的所述第二先行帧的数目等于所述先行帧的第二数目。6.根据权利要求5所述的系统,其中所述语音识别网络包括延迟控制的双向长短期记忆模型。7.根据权利要求1所述的系统,其中所述第一批次尺寸包括先行帧的第一数目,并且所述第一批次包括第一先行帧,所述第一批次的所述第一先行帧的数目等于所述先行帧的第一数目,所述程序代码在由所述处理单元执行时使所述系统:
收集第三批次,所述第三批次包括所述第一数目的所述音频信号的声学特征帧,与所述第三...

【专利技术属性】
技术研发人员:H
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1