用于半监督语音识别的对比孪生网络制造技术

技术编号：41334410 阅读：4 留言：0更新日期：2024-05-20 09:54

一种方法(400)包括接收对应于与未与对应转录(308)配对的口述话语(106)的多个未标记音频样本(303)。在对比孪生网络(300)的目标分支(310)处，该方法还包括生成针对多个未标记音频样本的编码器输出(312)的序列以及修改编码器输出的时间特性以生成目标分支输出(316)的序列。在对比孪生网络的增强分支(320)处，该方法还包括对未标记音频样本执行增强，生成针对增强的未标记音频样本的增强编码器输出(326)的序列，以及生成对在目标分支处生成的目标分支输出的序列的预测(329)。该方法还包括确定无监督损失项(330)以及基于无监督损失项来更新音频编码器的参数。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及用于半监督语音识别的对比孪生(siamese)网络。

技术介绍

1、自动语音识别(asr)系统试图通过获取音频输入并将音频输入转录成文本来提供人所说内容的准确转录。在许多实例中，监督学习用于利用大量标记训练数据(包括音频数据和对应转录)来训练asr系统。然而，由于与收集大标记训练数据集相关联的所需时间量、成本和/或隐私问题，获得训练asr系统所需的大量标记训练数据通常是困难的。使用仅包括音频数据的未标记训练数据来训练asr系统可以缓解收集大量标记训练数据的一些困难。

技术实现思路

1、本公开的一个方面提供了一种用于训练语音识别模型的对比孪生网络。对比孪生网络包括在对应于未与任何对应转录配对的口述话语的多个未标记音频样本上训练的无监督子网络。无监督子网络包括目标分支，该目标分支被配置为：接收从未标记音频样本提取的声学帧的序列作为对语音识别模型的音频编码器的输入；以及在多个时间步中的每个处，生成针对在对应时间步处输入到音频编码器的声学帧的序列中的对应声学帧的目标分支输出。无监督子网络还包括增强分支，该增强分支被配置为：对从未标记音频样本提取的声学帧的序列执行增强以生成增强声学帧的序列；在多个时间步中的每个处，生成针对增强声学帧的序列中的对应增强声学帧的高阶特征表示作为来自音频编码器的输出；以及，在多个时间步中的每个处，使用在对应时间步处从音频编码器输出的高阶特征表示来生成由目标分支在对应时间步处生成的目标分支输出的预测。无监督子网络被配置为：在多个时间步中的每个处，基于由目标

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，无监督损失项包括对比损失项。对声学帧的序列执行的增强可以包括时间修改和掩蔽。在一些示例中，目标分支还被配置为：在多个时间步中的每个处，生成针对在对应时间步处输入到音频编码器的声学帧的序列中的对应声学帧的高阶特征表示作为来自音频编码器的输出。这里，目标分支被配置为通过修改高阶特征表示的时间特性来生成针对对应声学帧的目标分支输出。在这些示例中，修改高阶特征表示的时间特性可以包括：在多个时间步中的每个处，修改针对对应声学帧的作为来自音频编码器的输出生成的高阶特征表示的时间特性，以匹配与在对应时间步处针对对应增强声学帧的作为来自音频编码器的输出生成的高阶特征表示相关联的时间特性。

3、在一些实施方式中，增强分支包括transformer层的预测网络，该预测网络被配置为在多个时间步中的每个处：接收在对应时间步处从音频编码器输出的高阶特征表示作为输入；以及，生成由目标分支在对应时间步处生成的目标分支输出的预测作为输出。在一些示例中，对比孪生网络包括在对应于与对应转录配对的口述话语的多个标记音频样本上训练的监督子网络。在这些示例中，在针对每个标记音频样本的多个输出步中的每个处，监督子网络被配置为使用语音识别模型生成针对标记音频样本的对应语音识别结果；以及基于针对标记音频样本的对应语音识别结果和标记音频样本的对应转录来确定监督损失项。这里，监督子网络基于在多个输出步中的每个处针对多个标记音频样本中的每个标记音频样本确定的监督损失项来更新语音识别模型的参数。

4、使用语音识别模型针对标记音频样本生成的对应语音识别结果可以包括在对应输出步处针对标记音频样本的可能语音识别假设上的概率分布。在一些示例中，监督子网络被配置为：独立于无监督网络更新语音识别模型的音频编码器的参数，基于监督损失项来更新语音识别模型的参数。在其他示例中，监督子网络还被配置为将数据增强应用到输入到语音识别模型的多个标记音频样本中的标记音频样本中的至少一个。在这些其他示例中，所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

5、在一些实施方式中，训练后的语音识别模型包括transformer-transducer(t-t)模型，该t-t模型包括音频编码器，音频编码器被配置为：接收从表征口述话语的音频数据提取的声学帧的序列作为输入；以及在多个时间步中的每个处生成针对声学帧的序列中的对应声学帧的高阶特征表示。在这些实施方式中，t-t模型还包括：标签编码器，其被配置为接收由最终softmax层输出的非空白符号的序列作为输入，并且在多个时间步中的每个处生成密集表示；以及联合网络，其被配置为接收由音频编码器在多个时间步中的每个处生成的高阶特征表示(aht)和由标签编码器在多个时间步中的每个处生成的密集表示(ihu)作为输入，以及在多个时间步中的每个处生成在对应时间步处的可能语音识别假设上的概率分布。这里，音频编码器包括具有跨步卷积层和transformer层的堆叠的神经网络。

6、本公开的另一方面提供了一种计算机实现的方法，该方法当在数据处理硬件上执行时使得数据处理硬件执行用于使用对比孪生网络来训练语音识别模型的操作。操作包括：接收对应于未与对应转录配对的口述话语的多个未标记音频样本。在对比孪生网络的目标分支处，操作包括：使用语音识别模型的音频编码器生成针对多个未标记音频样本的编码器输出的序列；以及修改编码器输出的时间特性以生成目标分支输出的序列。在对比孪生网络的增强分支处，操作包括：对未标记音频样本执行增强；使用语音识别模型的音频编码器生成针对增强的未标记音频样本的增强编码器输出的序列；以及使用被配置为接收增强编码器输出的序列的预测网络生成在目标分支处生成的目标分支输出的序列的预测。操作还包括基于在目标分支处生成的目标分支输出和在增强分支处生成的目标分支输出的序列的预测来确定无监督损失项。操作还包括基于无监督损失项来更新音频编码器的参数。

7、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，无监督损失项包括对比损失项。对未标记音频样本执行增强可以包括对未标记音频样本执行时间修改和掩蔽。在一些示例中，操作还包括生成针对多个未标记音频样本的高阶特征表示作为来自音频编码器的输出。在这些示例中，修改编码器输出的时间特性以生成目标分支输出的序列包括：修改作为来自音频编码器的输出生成的编码器输出的时间特性，以匹配与来自音频编码器的增强编码器输出的序列相关联的时间特性。在一些实施方式中，操作还包括：接收增强编码器输出的序列作为对增强分支的transformer层的预测网络的输入；以及生成在目标分支处生成的目标分支输出的序列的预测作为来自增强分支的transformer层的预测网络的输出。

8、在一些示例中，操作还包括：接收对应于与对应转录配对的口述话语的多个标记音频样本；使用语音识别模型生成针对标记音频样本的语音识别结果；基于针对标记音频样本的语音识别结果和标记音频样本的对应转录来确定监督损失项；以及基于监督损失项来更新语音识别模型的参数。在这些示例中，操作还可以包括：独立于基于无监督损失项来更新音频编码器的参数，基于监本文档来自技高网...

【技术保护点】

1.一种用于训练语音识别模型(200)的对比孪生网络(300)，所述对比孪生网络包括在对应于未与对应转录(308)配对的口述话语(106)的多个未标记音频样本(303)上训练的无监督子网络(302)，所述无监督子网络(302)包括：

2.根据权利要求1所述的对比孪生网络(300)，其中，所述无监督损失项(330)包括对比损失项。

3.根据权利要求1或2所述的对比孪生网络(300)，其中，对所述声学帧(304)的序列执行的所述增强包括时间修改和掩蔽。

4.根据权利要求1至3中任一项所述的对比孪生网络(300)，其中，所述目标分支(310)还被配置为：

5.根据权利要求4所述的对比孪生网络(300)，其中，修改所述高阶特征表示(312)的所述时间特性包括：在所述多个时间步中的每个处，修改针对所述对应声学帧(304)的作为来自所述音频编码器(210)的输出生成的所述高阶特征表示(312)的所述时间特性，以匹配与在对应时间步处针对所述对应增强声学帧(304A)的作为来自所述音频编码器(210)的输出生成的所述高阶特征表示(312)相关联的时间特性。

6.根据权利要求1至5中任一项所述的对比孪生网络(300)，其中，所述增强分支(320)包括transformer层的预测网络(328)，所述预测网络(328)被配置为在所述多个时间步中的每个处：

7.根据权利要求1至6中任一项所述的对比孪生网络(300)，还包括在对应于与对应转录(308)配对的口述话语(106)的多个标记音频样本(305)上训练的监督子网络(301)，所述监督子网络(301)被配置为：

8.根据权利要求7所述的对比孪生网络(300)，其中，使用所述语音识别模型(200)针对所述标记音频样本(305)生成的所述对应语音识别结果(342)包括在对应输出步处针对所述标记音频样本(305)的可能语音识别假设上的概率分布。

9.根据权利要求7或8所述的对比孪生网络(300)，其中，所述监督子网络(301)被配置为：独立于所述无监督网络(302)更新所述语音识别模型(200)的所述音频编码器(210)的所述参数，基于所述监督损失项(350)来更新所述语音识别模型(200)的所述参数。

10.根据权利要求7至9中任一项所述的对比孪生网络(300)，其中，所述监督子网络(301)还被配置为将数据增强应用到输入到所述语音识别模型(200)的所述多个标记音频样本(305)中的所述标记音频样本(305)中的至少一个。

11.根据权利要求10所述的对比孪生网络(300)，其中，所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

12.根据权利要求1至11中任一项所述的对比孪生网络(300)，其中，训练后的语音识别模型(200)包括Transformer-Transducer(T-T)模型(200)，所述T-T模型(200)包括：

13.一种计算机实现的方法(400)，所述方法当在数据处理硬件(12)上执行时使得所述数据处理硬件(12)执行包括以下各项的操作：

14.根据权利要求13所述的计算机实现的方法(400)，其中，所述无监督损失项(330)包括对比损失项。

15.根据权利要求13或14所述的计算机实现的方法(400)，其中，对所述未标记音频样本(303)执行增强包括对所述未标记音频样本(305)执行时间修改和掩蔽。

16.根据权利要求13至16中任一项所述的计算机实现的方法(400)，其中，所述操作还包括生成针对所述多个未标记音频样本(303)的高阶特征表示作为来自所述音频编码器(210)的输出。

17.根据权利要求16所述的计算机实现的方法(400)，其中，修改所述编码器输出(312)的所述时间特性以生成所述目标分支输出(316)的序列包括：修改作为来自所述音频编码器(210)的输出生成的所述编码器输出(316)的所述时间特性，以匹配与来自所述音频编码器(210)的所述增强编码器输出(326)的序列相关联的时间特性。

18.根据权利要求13至17中任一项所述的计算机实现的方法(400)，其中，所述操作还包括：

19.根据权利要求13至18中任一项所述的计算机实现的方法(400)，其中，所述操作还包括：

20.根据权利要求19所述的计算机实现的方法(400)，其中，使用所述语音识别模型(200)针对所述标记音频样本(305)生成的所述语音识别结果(342)包括在所述对应输出步处针对所述标记音频样本(305)的可能语音识别假设上的概率分布。

...

【技术特征摘要】
【国外来华专利技术】

2.根据权利要求1所述的对比孪生网络(300)，其中，所述无监督损失项(330)包括对比损失项。

3.根据权利要求1或2所述的对比孪生网络(300)，其中，对所述声学帧(304)的序列执行的所述增强包括时间修改和掩蔽。

4.根据权利要求1至3中任一项所述的对比孪生网络(300)，其中，所述目标分支(310)还被配置为：

5.根据权利要求4所述的对比孪生网络(300)，其中，修改所述高阶特征表示(312)的所述时间特性包括：在所述多个时间步中的每个处，修改针对所述对应声学帧(304)的作为来自所述音频编码器(210)的输出生成的所述高阶特征表示(312)的所述时间特性，以匹配与在对应时间步处针对所述对应增强声学帧(304a)的作为来自所述音频编码器(210)的输出生成的所述高阶特征表示(312)相关联的时间特性。

11.根据权利要求10所述的对比孪生网络(300)，其中，所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

12.根据权利要求1至...

【专利技术属性】
技术研发人员：金载荣，苏海尔·霍拉姆，哈西姆·萨克，安舒曼·特里帕蒂，陆涵，张骞，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人