用于音频理解的经学习的音频前端机器学习模型制造技术

技术编号:38330964 阅读:14 留言:0更新日期:2023-07-29 09:13
包括在计算机存储介质上编码的计算机程序的方法、系统和装置,用于使用经学习的音频前端机器学习模型来处理音频输入,所述经学习的音频前端机器学习模型处理音频输入以生成音频输入的表示。然后能够由音频理解模型处理该表示,以生成一个或多个音频理解任务中的每个音频理解任务的相应输出。个音频理解任务的相应输出。个音频理解任务的相应输出。

【技术实现步骤摘要】
【国外来华专利技术】用于音频理解的经学习的音频前端机器学习模型

技术介绍

[0001]本说明书涉及使用机器学习模型来处理音频。
[0002]机器学习模型的示例包括支持向量机、决策森林、线性模型和神经网络。
[0003]神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层——即,下一隐藏层或输出层——的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0004]本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,所述计算机程序使用机器学习模型来处理音频信号——即,包括例如幅度值的音频样本序列的音频波形——以生成用于音频理解任务的输出。
[0005]音频理解任务能够是需要处理音频波形以生成表征音频波形的预测的任何任务。
[0006]能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
[0007]执行音频理解任务的许多现有神经网络系统使用输入音频波形的梅尔滤波器组表示。梅尔滤波器组是模仿人类感知的固定的、设计的音频特征。然而,梅尔滤波器组受到手动设计的表示的基本限制的限制。本说明书描述了单个通用可学习前端,其在包括语音、音乐、音频事件和动物声音的宽范围的音频域上优于梅尔滤波器组,从而为音频提供通用学习前端。特别地,本说明书描述了一种轻量的、完全可学习的架构,其能够被用作梅尔滤波器组的直接替换器件。换句话说,该经学习的音频前端模型具有很少的参数,并且因为学习了这些参数,所以能够在训练期间和推断时以最小的计算开销得到改进的性能。
[0008]在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书,主题的其他特征、方面和优点将变得显而易见。
附图说明
[0009]图1示出了示例音频处理系统。
[0010]图2是用于训练策略神经网络和嵌入神经网络的示例过程的流程图。
[0011]图3是用于在演示序列上训练策略神经网络的示例过程的流程图。
[0012]图4图示了使用演示序列训练策略神经网络。
[0013]各个附图中相同的附图标记和名称指示相同的元件。
具体实施方式
[0014]本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该计算机程序使用机器学习模型来处理音频信号——即,包括例如幅度值的音频样本序列的音频波形——以生成用于音频理解任务的输出。
[0015]音频理解任务能够是需要处理音频波形以生成表征音频波形的预测的任何任务。
[0016]例如,如果输入是表示说出的话语的音频序列,即,音频波形,则音频理解任务能够是语音辨识,例如,具有为文本片段集合中的每一个定义分数的输出,每个分数表示该文本片段是话语的正确转录的估计似然性。
[0017]作为另一个示例,音频理解任务可以是关键词检索任务,其中,如果输入是表示说出的话语的音频序列,则输出能够指示在话语中是否说出特定词或短语(“热词”)。
[0018]作为另一个示例,音频理解任务能够是语言识别任务,其中,如果输入是表示说出的话语的音频序列,则由受训者神经网络生成的输出能够识别说出话语的自然语言。
[0019]音频理解任务也能够是对不是语音的音频执行的任务。这样的音频理解任务的示例包括:音乐辨识任务,所述音乐辨识任务接收音频序列作为输入并生成对在输入中表示的一段音乐的名称或其他属性的预测;动物分类任务,所述动物分类任务接收包括一个或多个动物声音的音频输入并生成对正在发出动物声音的动物类别的预测;音频事件分类任务,在所述音频事件分类任务中,输入是音频序列,是对在什么时间实例中针对多个不同声音中的每一个声音在音频序列内是活动的预测;等。
[0020]更一般地,虽然本说明书描述了在处理音频信号时能够替换梅尔滤波器组表示的前端,但是前端也能够代替地替换不同种类的输入信号——例如,地震数据或生理记录——的手动设计或其他学习的表示。
[0021]图1示出了示例音频处理系统100。音频处理系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例,其中,能够实现下面描述的系统、组件和技术。
[0022]音频处理系统100获得音频波形102作为输入。音频波形102是处于第一频率(“采样频率”)的音频样本序列,例如幅度值。
[0023]音频处理系统100使用经学习的音频前端模型110来处理音频波形102,以生成音频波形的特征表示112。
[0024]通常,音频前端模型110是机器学习模型,其被配置为应用具有多个滤波参数的经学习的滤波操作、具有多个池化参数的经学习的池化操作以及具有多个归一化参数的学习归一化操作,以生成音频波形102的特征表示112。
[0025]下面参考图2至4更详细地描述由音频前端模型110执行以生成特征表示112的操作。
[0026]系统100使用音频理解机器学习模型120来处理特征表示112。音频理解机器学习模型120是具有参数(“音频理解参数”)的机器学习模型,该机器学习模型被配置为处理特征表示112以针对一个或多个音频理解任务中的每个音频理解任务——例如,针对上述任务中的一个或多个任务或针对需要对音频波形102的内容进行预测的不同任务——生成相应的输出122。
[0027]音频理解模型120能够是任何适当的模型,例如,先前被配置为接收音频信号的梅尔滤波器组表示作为输入的模型。也就是说,作为特定示例,音频前端模型110能够在音频处理流水线中替换将音频波形映射到作为音频理解模型120的输入提供的音频波形的梅尔滤波器组表示的系统。
[0028]能够接收特征表示112作为输入的音频理解模型的特定示例包括:卷积神经网络,
例如,具有EfficientNet架构的卷积神经网络;全连接神经网络,例如,具有用于多个任务中的每一个的相应线性层集合的多任务神经网络;递归神经网络,例如,基于长短期记忆(LSTM)或门控递归单元(GRU)的神经网络;或自注意神经网络,例如,变换器神经网络。
[0029]音频前端模型110被称为“经学习的”音频前端模型,因为利用音频理解模型120端到端地学习经学习的音频前端模型的参数的值,即,滤波、池化和归一化参数的值。换句话说,由音频前端模型110执行的操作是完全可区分的,从而允许音频前端模型110通过梯度下降与“后端”模型联合训练。这与硬编码的并且因此不能被微调以改进给定模型120在一个或多个音频处理任务的给定集合上的性能的其他突出表示——例如,梅尔滤波器组表示——不同。
[0030]具体地,系统100包括训练引擎150,其在用于一个或多个音频理解任务中的每一个的相应训练数据上训练音频前端模型110和音频理解模型120。
[0031]给定任务的训练数据包括训练音频输入集合,并且对于每个音频输入,包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个计算机执行的方法,所述方法包括:获得包括处于第一频率的音频样本序列的音频波形;使用经学习的音频前端模型处理所述音频波形以生成所述音频波形的特征表示,其中,所述特征表示包括处于第二频率的特征序列,并且其中,经学习的音频前端模型被配置为:将具有多个滤波参数的经学习的滤波操作应用于所述音频波形,以生成包括处于所述第一频率的滤波特征序列的滤波表示;将具有多个池化参数的经学习的池化操作应用于所述滤波表示,以生成包括处于所述第二频率的池化特征序列的池化表示;以及将具有多个归一化参数的经学习的归一化操作应用于所述池化表示以生成所述特征表示;以及使用具有多个音频理解参数的音频理解机器学习模型来处理所述特征表示,以生成用于一个或多个音频理解任务中的每个音频理解任务的相应输出。2.根据权利要求1所述的方法,其中,经学习的音频前端模型和所述音频理解机器学习模型在所述音频理解任务中的至少一个上已经被端到端地训练,以确定所述滤波参数、所述池化参数和所述归一化参数。3.根据任一前述权利要求所述的方法,其中,所述第二频率低于所述第一频率。4.根据任一前述权利要求所述的方法,其中,每个滤波特征包括用于多个通道中的每个通道的相应值,并且其中,对于每个通道,应用所述经学习的滤波操作包括:将一个或多个一维卷积滤波器应用于所述音频波形以生成用于所述通道的相应值。5.根据权利要求4所述的方法,其中,将一个或多个一维卷积滤波器应用于所述音频波形以生成用于所述通道的值包括:将多个一维卷积滤波器应用于所述音频波形以生成多个卷积值;以及组合所述卷积值以生成用于所述通道的相应值。6.根据权利要求5所述的方法,其中,所述多个一维卷积滤波器中的每个是Gabor滤波器。7.根据任一前述权利要求所述的方法,其中,每个滤波特征具有用于多个...

【专利技术属性】
技术研发人员:尼尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1