以声音特征为条件的声学模型制造技术

技术编号:30778625 阅读:17 留言:0更新日期:2021-11-16 07:38
本公开涉及以声音特征为条件的声学模型。话音识别的系统和方法捕捉具有关键短语及其后紧接的话语的话音音频的片段。编码器使用关键短语片段来计算声音嵌入,该声音嵌入被存储。用于话音识别的声学模型利用以声音嵌入作为输入条件的模型来从话语音频信号推断音素。声音嵌入可被保持,直到另一关键短语被捕捉或者会话结束为止。可以从与噪声混合的话音数据记录来联合训练声学模型和编码器,混合噪声的剖面对于关键短语片段和话语片段是相同的。剖面对于关键短语片段和话语片段是相同的。剖面对于关键短语片段和话语片段是相同的。

【技术实现步骤摘要】
以声音特征为条件的声学模型
[0001]本申请要求2020年4月27日提交的标题为“Acoustic Model Conditioning on Sound Features”的美国临时申请62/704,202号的优先权。


[0002]本申请属于神经网络的领域,具体而言属于基于声音嵌入作为条件的领域。

技术介绍

[0003]我们正处于历史的一个转折点,在这里自然语言话音接口作为一种新型的人机接口即将起飞。它们转录话音的能力将很快取代键盘,成为输入文本的最快且最准确的方式。它们支持自然语言命令的能力将很快取代鼠标和触摸屏,成为操纵非文本控制的方式。在四面八方,它们将为人类提供干净、无菌的方式来控制机器工作、娱乐、教育、放松和协助进行琐碎的任务。
[0004]然而,自然语言话音接口提供所有这些益处的能力目前被其识别话音的能力的不准确所阻碍。有时弄错单词可能会很有趣,比如将爱尔兰口音的“thirty

three”捕捉为“dirty tree”。在一些情况下,它可能是令人沮丧的,比如从嘈杂的汽车中将“text mom”捕捉为“text tom”、“text none”、“text some”。在一些情况下,话音识别差错可能是危险的,比如把高声的医生口述的失语症(aphasia)医学诊断捕捉为不食症(aphagia)!。
[0005]图1示出了虚拟助手情境中的话音识别失败的场景。用户10是一个拥有独特声道的人,他们说话时带有新西兰口音,并且他们在一个嘈杂的房间中,雨落在窗户11上。用户10呼唤12,让虚拟助手预测新西兰首都奥克兰(Auckland)明天是否会下雨。来自旧金山湾区一家公司的虚拟助手13将Auckland这个词识别为湾区城市Oakland,并给出了关于那里天气的无用响应14。来自美国西北一家公司的另一位虚拟助手15把Auckland这个词识别为加拿大西部的城市Falkland,并且也给出了无用响应16。
[0006]对于不常见的口音、不常见的语音类型、在不常见的环境条件中(比如有噪音、背景音或音乐)、使用不常见的设备以及在其他不常见的场景中的话音,传统的话音识别遭遇准确率的问题,使得它们只适合于狭窄的用途,比如在安静的家中播放音乐。只有解决了这些问题,带有语音接口的产品才能实现其在日常生活中的潜在作用。

技术实现思路

[0007]以声音特征为条件的声学模型(条件声学模型)提供了一种简单且强大的技术,大大改善了自动话音识别(automatic speech recognition,ASR)的准确性。
[0008]用途
[0009]条件声学模型在语音类型、口音、环境条件等等那些不常见的用例中提供了最大的改进。它有一些特殊的益处,比如即使在有背景噪声、音乐或话音的情况下,也能使ASR准确。
[0010]许多ASR系统使用在数据上训练的神经网络。神经网络体系结构在其层数、节点
数、卷积、递归和训练方法方面有很大的不同。本专利技术提供了对ASR准确性的益处,而不管使用的具体神经网络体系结构如何。此外,通过提供改善的准确性,与传统的ASR方案将会需要的相比,可以用更少的时间和更少的训练数据来训练ASR系统以满足所需的准确性规格。这使得话音识别产品和服务的提供商能够开发新的特征,并且更快地将其推向市场,从而改善他们的市场竞争地位和整体盈利能力。
[0011]ASR的这些益处可以在如图1的示例中那样的响应于关键短语而唤醒的虚拟助手内实现,但也可以在听写系统、车辆控制接口、零售贩卖系统以及识别经常说出的已知关键短语的语音接口的任何其它应用中实现。
[0012]实现方式
[0013]声学模型(acoustic model,AM)是ASR的计算机化系统的方法,也是其关键成分。具体地,AM推断话音音频中的音素的概率。条件声学模型依赖于从具有已知音素序列的关键短语的第一话音片段编码声音嵌入。在机器学习中,嵌入是一个特殊的术语,它简单地意味着将输入表示投射到另一个更方便的表示空间中。第一音频片段可能只有几个音频样本或者单一的频谱帧那么少,或者可能有一串几个单词那么多。编码的向量在第一音频片段结束后立即或不久就被计算并存储。
[0014]条件声学模型随后在紧随在关键短语音频之后的包含话语的第二话音音频片段上执行音素概率的推断。AM的输入既是话音音频的话语片段,也是存储的向量。输出是至少一个的概率,但在许多实现方式中,是一组音素中每个音素的概率的SoftMax集合。
[0015]一些实现方式将神经网络用于声学模型,并且在标记的话音音频样本上训练神经网络,每个样本具有对应的关键短语声音嵌入。这个对应关系确保了声音嵌入对AM的学习预测的影响对于每个训练数据样本将会有正确的方向和比例。
[0016]在支持各种各样的用户的ASR系统的情况下,如果训练样本包括多种语音和多种口音,那么由此产生的推断准确性是最好的。此外,如果训练音频样本中的至少一些与噪声音频样本混合在一起,则推断准确性是最好的。然而,如果与关键短语音频混合的噪声和与训练话语音频混合的噪声具有相同的噪声剖面,则声音嵌入的学习效果将是最好的。
[0017]各种类型的编码器是可能的。有些可能是精心编程的。有些可能是从数据中学习的模型,比如神经网络。可以将预训练的模型用于编码器。然而,也可以将编码器模型与声学模型联合训练。这可包括将声学模型梯度反向传播到编码器模型内的神经网络节点。联合训练一般将会给出更好的准确性,因为编码器学习的声音嵌入优化了声音嵌入的迷惑性,为训练的AM模型提供了分辨能力。
[0018]也可以让一个或多个联合训练的和一个或多个独立训练的编码模型对来自关键短语音频的声音嵌入进行编码和存储,并且将编码作为输入提供给声学模型。
[0019]可以在不同的设备中具有编码器和声学模型。例如,具有麦克风和计算机化代码以运行唤醒短语侦测器的客户端设备也可以计算关键短语的编码。它随后可将随后的具有话语的第二音频片段与编码的向量一起发送到运行条件声学模型的ASR服务器。基于服务器的ASR在用户设备处以较低的成本和功耗要求提供了高准确性。
[0020]然而,也可以对声音嵌入进行编码,并且将其用在全都在同一系统内的条件声学模型中。那可能是一服务器,其接收关键短语音频和随后的具有话语的话语音频片段。然而,该系统可完全被包含在能够在没有网络连接的情况下以“飞行模式”执行ASR的用户设
备(例如汽车或移动手机)内。
附图说明
[0021]图1示出了传统系统中的话音识别失败。
[0022]图2示出了具有关键短语和话语的话音音频的波形。
[0023]图3示出了一般的和经处理的话音音频内的信息的表格。
[0024]图4A示出了根据一实施例的编码器和有条件声学模型的图。
[0025]图4B示出了根据一实施例的多个编码器和有条件声学模型的图。
[0026]图5示出了根据一实施例训练以声音嵌入为条件的声学模型的图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种推断话音音频中的音素概率的由计算机实现的方法,该方法包括:从关键短语的第一话音片段编码第一声音嵌入以生成第一向量;存储所述第一向量;利用将以下各项作为输入的声学模型来推断所述音素概率:在所述第一话音片段之后不久的第二话音片段;以及存储的第一向量。2.如权利要求1所述的方法,其中所述声学模型是在话音音频的标记样本上被训练的,每个样本具有对应的关键短语声音嵌入。3.如权利要求2所述的方法,其中训练样本包括多种语音与多种噪声剖面相混合,所述关键短语声音嵌入是用与其对应的话音音频样本相同的混合噪声剖面来计算的。4.如权利要求1所述的方法,其中所述编码使用与所述声学模型联合训练的编码器模型。5.如权利要求1所述的方法,还包括:从所述第一话音片段编码第二声音嵌入以生...

【专利技术属性】
技术研发人员:高孜哲莫轲文
申请(专利权)人:声音猎手公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1