使用生成对抗网络进行鲁棒语音识别的系统和方法技术方案

技术编号:21092995 阅读:36 留言:0更新日期:2019-05-11 11:14
本文描述的是用于一般的、可扩展的端到端框架的系统和方法,该框架使用生成对抗网络(GAN)目标来实现鲁棒语音识别。通过学习将有噪声的音频映射到与干净音频相同的嵌入空间,使用所提出的方法训练的编码器享有改进的不变性。Wasserstein GAN框架的实施方式以可扩展端到端的方式来增强seq‑to‑seq模型的鲁棒性。在一个或多个实施方式中,编码器部件被用作GAN的产生器,且经训练以在标签和无标签音频样本之间产生难以区分的嵌入。此新的鲁棒训练方法可以在没有对齐或复杂的推理管道且甚至在无法扩充音频数据的情况下学习引发鲁棒性。

【技术实现步骤摘要】
使用生成对抗网络进行鲁棒语音识别的系统和方法
技术介绍
自动语音识别(ASR)在人们的日常生活中变得越来越不可或缺,其使虚拟助手和智能扬声器能够实现,如Siri、GoogleNow、Cortana、AmazonEcho、GoogleHome、AppleHomePod、MicrosoftInvoke、BaiduDuer以及还有很多。尽管最近ASR性能有了很大改进,但这些模型仍然由于人类很少或根本没有问题识别的混响、环境噪声、重音和伦巴第(Lombard)反应的合理变化的而遭受严重劣化。通过在大量数据上训练模型可以减轻大多数这些问题,这些数据可以例示这些效应。然而,在非静态过程(诸如重音)的情况下,准确的数据增加很可能是不可行的,并且通常,收集高质量数据集可能是昂贵且耗时的。已经考虑手工设计的前端和数据驱动的方法以试图增加具有期望效应的相对简约数据的价值。虽然这些技术在它们各自的操作方式中非常有效,但由于上述原因,它们在实践中不能很好地推广至其他形式。也就是说,难以从第一原理模拟除混响和背景噪声之外的任何东西。现有的技术不直接引发ASR的不变性或不可扩展。并且,由于语音的有序性,需要对齐来比较同一文本的两个不同的话语。因此,所需要的是能够克服这些缺陷的系统和方法。
技术实现思路
根据本申请的一方面,提供了一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法,所述方法包括:在所述序列到序列模型的编码器处接收一批标签音频数据,所述标签音频数据与相应的ground-truth转录序列相关联;在所述编码器处接收一批无标签音频数据;通过所述编码器产生对应于所述标签音频数据的第一批嵌入;通过使用所述编码器作为所述生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入;通过所述序列到序列模型的解码器产生来自所述第一批嵌入的预测转录序列;基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失;基于所述第一批嵌入和所述第二批嵌入在鉴别器处确定鉴别器损失;以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型,以更新序列到序列模型权重和鉴别器权重,用于增强自动语音识别中所述序列到序列模型的鲁棒性。根据本申请的另一方面,提供了一种使用生成对抗网络来增强鲁棒语音识别的系统,所述系统包括:序列到序列模型,其包括用于语音识别的编码器和解码器,所述编码器被用作所述生成对抗网络的产生器;鉴别器,其耦合到所述编码器以形成所述生成对抗网络;一个或多个处理器,其被配置成在训练过程中训练所述序列到序列模型和鉴别器,所述训练过程包括:在所述编码器处接收一批标签音频数据,所述标签音频数据与相应的ground-truth转录序列相关联;在所述编码器处接收一批无标签音频数据;通过所述编码器产生分别对应于所述标签音频数据和所述无标签音频数据的第一批嵌入和第二批嵌入;通过所述解码器产生来自所述第一批嵌入的预测转录序列;基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失;基于所述第一批嵌入和所述第二批嵌入在所述鉴别器处确定鉴别器损失;以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型,以更新序列到序列模型权重和鉴别器权重,用于增强语音识别中所述序列到序列模型的鲁棒性。根据本申请的又一方面,提供了一种包括一个或多个指令序列的一个或多个非暂时性计算机可读介质,所述指令序列在被一个或多个微处理器执行时致使执行步骤,所述步骤包括:在序列到序列模型的编码器处接收一批标签音频数据,所述标签音频数据与相应的ground-truth转录序列相关联;在所述编码器处接收一批无标签音频数据;通过所述编码器产生对应于所述标签音频数据的第一批嵌入;通过使用所述编码器作为生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入;通过所述序列到序列模型的解码器产生来自所述第一批嵌入的预测转录序列;基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失;基于所述第一批嵌入和所述第二批嵌入在所述生成对抗网络的鉴别器处确定鉴别器损失;以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型,以更新序列到序列模型权重和鉴别器权重,用于增强语音识别中所述序列到序列模型的鲁棒性。附图说明将参考本专利技术的实施方式,它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本专利技术大体上在这些实施方式的上下文中描述,但应理解,本专利技术的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。图1描绘了根据本公开的实施方式的具有编码器距离增强器的序列到序列模型的架构。图2描绘了根据本公开的实施方式的具有Wasserstein生成对抗网络(WGAN)增强器的序列到序列(seq-to-seq)模型的架构。图3描绘了根据本公开的实施方式的使用WGAN框架用于语音识别的端到端训练seq-to-seq模型的过程。图4描绘了根据本公开的实施方式的在训练过程期间更新seq-to-seq模型参数的过程。图5描绘了根据本公开的实施方式的WGAN框架的网络架构。图6描绘了根据本公开的实施方式的计算装置/信息处置系统的简化框图。具体实施方式在以下描述中,出于解释目的,阐明具体细节以便提供对本专利技术的理解。然而,将对本领域的技术人员显而易见的是,可在没有这些细节的情况下实践本专利技术。此外,本领域的技术人员将认识到,下文描述的本专利技术的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。附图中示出的组件或模块是本专利技术实施方式的示例性说明,并且意图避免使本专利技术不清楚。还应理解,在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。应注意,本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。此外,附图内的组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外,可使用另外或更少的连接。还应注意,术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本专利技术的至少一个实施方式中,以及可包括在多于一个的实施方式中。另外,在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。在本说明书的各个地方使用某些术语目的在于说明,并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源;这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语,并且其后任何列出内容都是实例,而不旨在限于所列项目。本文所使用的任何标题仅是为了组织目的,并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献以其全文通过引用并入本文。此外,本领域的技术人员应认本文档来自技高网...

【技术保护点】
1.一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法,所述方法包括:在所述序列到序列模型的编码器处接收一批标签音频数据,所述标签音频数据与相应的ground‑truth转录序列相关联;在所述编码器处接收一批无标签音频数据;通过所述编码器产生对应于所述标签音频数据的第一批嵌入;通过使用所述编码器作为所述生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入;通过所述序列到序列模型的解码器产生来自所述第一批嵌入的预测转录序列;基于所述预测转录序列和所述ground‑truth转录序列来确定交叉熵损失;基于所述第一批嵌入和所述第二批嵌入在鉴别器处确定鉴别器损失;以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型,以更新序列到序列模型权重和鉴别器权重,用于增强自动语音识别中所述序列到序列模型的鲁棒性。

【技术特征摘要】
2017.10.27 US 62/578,102;2018.10.08 US 16/154,6481.一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法,所述方法包括:在所述序列到序列模型的编码器处接收一批标签音频数据,所述标签音频数据与相应的ground-truth转录序列相关联;在所述编码器处接收一批无标签音频数据;通过所述编码器产生对应于所述标签音频数据的第一批嵌入;通过使用所述编码器作为所述生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入;通过所述序列到序列模型的解码器产生来自所述第一批嵌入的预测转录序列;基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失;基于所述第一批嵌入和所述第二批嵌入在鉴别器处确定鉴别器损失;以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型,以更新序列到序列模型权重和鉴别器权重,用于增强自动语音识别中所述序列到序列模型的鲁棒性。2.根据权利要求1所述的计算机实现的方法,其中所述标签音频数据是干净的音频数据,所述无标签音频数据从所述标签音频数据或从不同的分布增强。3.根据权利要求2所述的计算机实现的方法,其中所述无标签音频数据并入随机高斯噪声。4.根据权利要求1所述的计算机实现的方法,其中所述生成对抗网络是Wasserstein生成对抗网络,所述鉴别器是鉴定器,所述鉴别器损失是第一批嵌入与所述第二批嵌入之间的陆地移动距离。5.根据权利要求4所述的计算机实现的方法,其中更新序列到序列模型权重和鉴别器权重包括以下步骤:确定相对于所述序列到序列模型权重的平均交叉熵损失的梯度;使用所确定的平均交叉熵损失的梯度来更新所述序列到序列模型权重;确定相对于鉴定器权重的平均陆地移动距离的梯度;使用所确定的平均陆地移动距离的梯度来更新鉴定器权重;将所更新的鉴定器权重裁剪到预定裁剪参数所限定的范围;重复上述步骤预定的迭代次数以设置所裁剪的鉴定器权重;使用所设置的裁剪鉴定器权重来确定相对于所述序列到序列模型权重的由第二批标签音频数据和第二批无标签音频数据产生的平均交叉熵损失和平均陆地移动距离的组合梯度;以及使用所确定的相对于所述序列到序列模型权重的平均交叉熵损失和平均陆地移动距离的组合的梯度来更新所述序列到序列模型权重。6.根据权利要求5所述的计算机实现的方法,其中所述交叉熵损失和所述鉴别器损失的组合是与由权重参数确定的所述陆地移动距离的权重的加权组合。7.根据权利要求1所述的计算机实现的方法,其中所述序列到序列模型是基于注意力的模型。8.一种使用生成对抗网络来增强鲁棒语音识别的系统,所述系统包括:序列到序列模型,其包括用于语音识别的编码器和解码器,所述编码器被用作所述生成对抗网络的产生器;鉴别器,其耦合到所述编码器以形成所述生成对抗网络;一个或多个处理器,其被配置成在训练过程中训练所述序列到序列模型和鉴别器,所述训练过程包括:在所述编码器处接收一批标签音频数据,所述标签音频数据与相应的ground-truth转录序列相关联;在所述编码器处接收一批无标签音频数据;通过所述编码器产生分别对应于所述标签音频数据和所述无标签音频数据的第一批嵌入和第二批嵌入;通过所述解码器产生来自所述第一批嵌入的预测转录序列;基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失;基于所述第一批嵌入和所述第二批嵌入在所述鉴别器处确定鉴别器损失;以及使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型,以更新序列到序列模型权重和鉴别器权重,用于增强语音识别中所述序列到序列模型的鲁棒性。9.根据权利要求8所述的系统,其中所述标签音频数据是干净的音频数据,所述无标签音频数据从所述标签音频数据或...

【专利技术属性】
技术研发人员:安鲁普·西瑞兰姆俊熙雄雅舍施·高尔桑吉夫·萨西斯
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1