使用生成对抗网络进行鲁棒语音识别的系统和方法技术方案

技术编号：21092995 阅读：36 留言：0更新日期：2019-05-11 11:14

本文描述的是用于一般的、可扩展的端到端框架的系统和方法，该框架使用生成对抗网络(GAN)目标来实现鲁棒语音识别。通过学习将有噪声的音频映射到与干净音频相同的嵌入空间，使用所提出的方法训练的编码器享有改进的不变性。Wasserstein GAN框架的实施方式以可扩展端到端的方式来增强seq‑to‑seq模型的鲁棒性。在一个或多个实施方式中，编码器部件被用作GAN的产生器，且经训练以在标签和无标签音频样本之间产生难以区分的嵌入。此新的鲁棒训练方法可以在没有对齐或复杂的推理管道且甚至在无法扩充音频数据的情况下学习引发鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
使用生成对抗网络进行鲁棒语音识别的系统和方法
技术介绍
自动语音识别(ASR)在人们的日常生活中变得越来越不可或缺，其使虚拟助手和智能扬声器能够实现，如Siri、GoogleNow、Cortana、AmazonEcho、GoogleHome、AppleHomePod、MicrosoftInvoke、BaiduDuer以及还有很多。尽管最近ASR性能有了很大改进，但这些模型仍然由于人类很少或根本没有问题识别的混响、环境噪声、重音和伦巴第(Lombard)反应的合理变化的而遭受严重劣化。通过在大量数据上训练模型可以减轻大多数这些问题，这些数据可以例示这些效应。然而，在非静态过程(诸如重音)的情况下，准确的数据增加很可能是不可行的，并且通常，收集高质量数据集可能是昂贵且耗时的。已经考虑手工设计的前端和数据驱动的方法以试图增加具有期望效应的相对简约数据的价值。虽然这些技术在它们各自的操作方式中非常有效，但由于上述原因，它们在实践中不能很好地推广至其他形式。也就是说，难以从第一原理模拟除混响和背景噪声之外的任何东西。现有的技术不直接引发ASR的不变性或不可扩展。并且，由于语音的有序性，需要对齐来比较同一文本的两个不同的话语。因此，所需要的是能够克服这些缺陷的系统和方法。
技术实现思路
根据本申请的一方面，提供了一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法，所述方法包括：在所述序列到序列模型的编码器处接收一批标签音频数据，所述标签音频数据与相应的ground-truth转录序列相关联；在所述编码器处接收一批无标签音频数据；通过所述编码器产生对应于所述标签音频数据的...

【技术保护点】
1.一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法，所述方法包括：在所述序列到序列模型的编码器处接收一批标签音频数据，所述标签音频数据与相应的ground‑truth转录序列相关联；在所述编码器处接收一批无标签音频数据；通过所述编码器产生对应于所述标签音频数据的第一批嵌入；通过使用所述编码器作为所述生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入；通过所述序列到序列模型的解码器产生来自所述第一批嵌入的预测转录序列；基于所述预测转录序列和所述ground‑truth转录序列来确定交叉熵损失；基于所述第一批嵌入和所述第二批嵌入在鉴别器处确定鉴别器损失；以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型，以更新序列到序列模型权重和鉴别器权重，用于增强自动语音识别中所述序列到序列模型的鲁棒性。

【技术特征摘要】
2017.10.27 US 62/578,102;2018.10.08 US 16/154,6481.一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法，所述方法包括：在所述序列到序列模型的编码器处接收一批标签音频数据，所述标签音频数据与相应的ground-truth转录序列相关联；在所述编码器处接收一批无标签音频数据；通过所述编码器产生对应于所述标签音频数据的第一批嵌入；通过使用所述编码器作为所述生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入；通过所述序列到序列模型的解码器产生来自所述第一批嵌入的预测转录序列；基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失；基于所述第一批嵌入和所述第二批嵌入在鉴别器处确定鉴别器损失；以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型，以更新序列到序列模型权重和鉴别器权重，用于增强自动语音识别中所述序列到序列模型的鲁棒性。2.根据权利要求1所述的计算机实现的方法，其中所述标签音频数据是干净的音频数据，所述无标签音频数据从所述标签音频数据或从不同的分布增强。3.根据权利要求2所述的计算机实现的方法，其中所述无标签音频数据并入随机高斯噪声。4.根据权利要求1所述的计算机实现的方法，其中所述生成对抗网络是Wasserstein生成对抗网络，所述鉴别器是鉴定器，所述鉴别器损失是第一批嵌入与所述第二批嵌入之间的陆地移动距离。5.根据权利要求4所述的计算机实现的方法，其中更新序列到序列模型权重和鉴别器权重包括以下步骤：确定相对于所述序列到序列模型权重的平均交叉熵损失的梯度；使用所确定的平均交叉熵损失的梯度来更新所述序列到序列模型权重；确定相对于鉴定器权重的平均陆地移动距离的梯度；使用所确定的平均陆地移动距离的梯度来更新鉴定器权重；将所更新的鉴定器权重裁剪到预定裁剪参数所限定的范围；重复上述步骤预定的迭代次数以设置所裁剪的鉴定器权重；使用所设置的裁剪鉴定器权重来确定相对于所述序列到序列模型权重的由第二批标签音频数据和第二批无标签音频数据产生的平均交叉熵损失和平均陆地移动距离的组合梯度；以及使用所确定的相对于所述序列到序列模型权重的平均交叉熵损失和平均陆地移动距离的组合的梯度来更新所述序列到序列模型权重。6.根据权利要求5所述的计算机实现的方法，其中所述交叉熵损失和所述鉴别器损失的组合是与由权重参数确定的所述陆地移动距离的权重的加权组合。7.根据权利要求1所述的计算机实现的方法，其中所述序列到序列模型是基于注意力的模型。8.一种使用生成对抗网络来增强鲁棒语音识别的系统，所述系统包括：序列到序列模型，其包括用于语音识别的编码器和解码器，所述编码器被用作所述生成对抗网络的产生器；鉴别器，其耦合到所述编码器以形成所述生成对抗网络；一个或多个处理器，其被配置成在训练过程中训练所述序列到序列模型和鉴别器，所述训练过程包括：在所述编码器处接收一批标签音频数据，所述标签音频数据与相应的ground-truth转录序列相关联；在所述编码器处接收一批无标签音频数据；通过所述编码器产生分别对应于所述标签音频数据和所述无标签音频数据的第一批嵌入和第二批嵌入；通过所述解码器产生来自所述第一批嵌入的预测转录序列；基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失；基于所述第一批嵌入和所述第二批嵌入在所述鉴别器处确定鉴别器损失；以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型，以更新序列到序列模型权重和鉴别器权重，用于增强语音识别中所述序列到序列模型的鲁棒性。9.根据权利要求8所述的系统，其中所述标签音频数据是干净的音频数据，所述无标签音频数据从所述标签音频数据或...

【专利技术属性】
技术研发人员：安鲁普·西瑞兰姆，俊熙雄，雅舍施·高尔，桑吉夫·萨西斯，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人