【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及推进文本和语音在具有一致性和对比损失的自动语音识别(asr)预训练中的使用。
技术介绍
1、自动语音识别(asr),即取得音频输入并且将其转录成文本的过程,已经极大地成为在移动设备和其他设备中使用的重要技术。通常,自动语音识别尝试通过取得音频输入(例如,语音话语)并且将该音频输入转录成文本来提供一个人已经说过什么的准确转录。现代asr模型继续基于深度神经网络的不断发展在准确性(例如,低词错误率(wer))和延时(例如,用户讲话与转录之间的延迟)两者改进。然而,开发基于深度学习的asr模型时的一个挑战是asr模型的参数往往过拟合训练数据,从而导致当训练数据不够广泛时,asr模型难以泛化看不见的数据。因此,在更大的训练数据集上训练asr模型改进asr模型的准确性。合成语音和/或数据增强语音能够被并入以增加用于训练asr模型的训练数据的体积。
技术实现思路
1、本公开的一个方面提供了一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上运行时,使该数据处理硬件执行用于预训练音频编码
...【技术保护点】
1.一种计算机实现的方法(600),所述计算机实现的方法(600)当在数据处理硬件(710)上运行时,使所述数据处理硬件(710)执行包括以下各项的操作:
2.根据权利要求1所述的计算机实现的方法(600),其中,所述音频编码器(210)包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。
3.根据权利要求1或2所述的计算机实现的方法(600),其中,预训练所述音频编码器(210)包括:
4.根据权利要求1至3中的任一项所述的计算机实现的方法(600),其中,预训练所述音频编码器(210)包括:
5.根据权利要求4
...【技术特征摘要】
【国外来华专利技术】
1.一种计算机实现的方法(600),所述计算机实现的方法(600)当在数据处理硬件(710)上运行时,使所述数据处理硬件(710)执行包括以下各项的操作:
2.根据权利要求1所述的计算机实现的方法(600),其中,所述音频编码器(210)包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。
3.根据权利要求1或2所述的计算机实现的方法(600),其中,预训练所述音频编码器(210)包括:
4.根据权利要求1至3中的任一项所述的计算机实现的方法(600),其中,预训练所述音频编码器(210)包括:
5.根据权利要求4所述的计算机实现的方法(600),其中:
6.根据权利要求5所述的计算机实现的方法(600),其中,预训练所述音频编码器(210)还包括:
7.根据权利要求4至6中的任一项所述的计算机实现的方法(600),其中,所述辅助解码器(390)包括连接时间分类(ctc)解码器、收听注意拼写(las)解码器或循环神经网络-transducer(rnn-t)解码器中的一者。
8.根据权利要求1至7中的任一项所述的计算机实现的方法(600),其中,所述操作还包括:
9.根据权利要求1至8中的任一项所述的计算机实现的方法(600),其中,所述操作还包括,在所述合成语音表示(332)上预训练所述音频编码器(210)之前,增强所述合成语音表示(332)中的一个或多个。
10.根据权利要求1至9中的任一项所述的计算机实现的方法(600),其中,所述非口头文本话语(320)是使用一个或多个语言模型(404、406)而生成和/或选择的。
11.根据权利要求1至10中的任一项所述的计算机实现的方法(600),其中,所述非口头文本话语(320)是使用在与目标域相关联的转录语音话语(304)上训练的背景语言模型(406)和域内语言模型(404)而生成的。
12.根据权利要求1至11中的任一项所述的计算机实现的方法(600),其中,所述操作还包括,在...
【专利技术属性】
技术研发人员:安德鲁·罗森伯格,陈哲怀,布瓦那·拉马巴德兰,佩德罗·J·莫雷诺·门吉巴尔,加里·王,张羽,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。