System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 在自监督语音预训练中注入文本制造技术_技高网

在自监督语音预训练中注入文本制造技术

技术编号:40677993 阅读:4 留言:0更新日期:2024-03-18 19:16
一种方法(500)包括接收包括非口头文本话语(320)和未转录的非合成语音话语(306)的训练数据。每个非口头文本话语不与非合成语音的任何对应的口头话语配对。每个未转录的非合成语音话语不与对应的转录配对。该方法还包括使用文本到语音模型(330)为所接收的训练数据的每个非口头文本话语生成对应的合成语音表示(332)。该方法还包括在针对非口头文本话语生成的合成语音表示和未转录的非合成语音话语上预训练音频编码器(210),以教导音频编码器联合学习共享语音和文本表示。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及在自监督语音预训练中注入文本


技术介绍

1、自动语音识别(asr)——采用音频输入并且将其转录为文本的过程——已经极大地成为在移动设备和其他设备中使用的一种重要技术。通常,自动语音识别试图通过采用音频输入(例如语音话语)并且将音频输入转录为文本来提供对人所说内容的准确转录。基于深度神经网络的不断发展,现代asr模型在准确性(例如低词错误率(wer))和时延(例如用户说话与转录之间的延迟)两方面不断提高。然而,开发基于深度学习的asr模型的一个挑战是asr模型的参数倾向于过度拟合训练数据,从而导致asr模型在训练数据不够广泛时难以概括未见数据。因此,在更大的训练数据集上训练asr模型提高了asr模型的准确性。能够并入合成语音和/或数据增强语音以增加用于训练asr模型的训练数据量。


技术实现思路

1、本公开的一个方面提供了一种计算机实现的方法,该方法当在数据处理硬件上执行时,使数据处理硬件执行用于预训练音频编码器以联合学习共享的语音和文本的表示的操作。操作包括接收训练数据,训练数据包括非口头文本话语和未转录的非合成语音话语。每个非口头文本话语不与非合成语音的任何对应的口头话语配对。每个未转录的非合成语音话语不与对应的转录配对。操作还包括使用文本到语音模型,为所接收的训练数据的每个非口头文本话语生成对应的合成语音表示。操作还包括在为非口头文本话语生成的合成语音表示和未转录的非合成语音话语上预训练音频编码器,以教导音频编码器联合学习共享语音和文本表示。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,音频编码器包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。在一些示例中,预训练音频编码器包括:对于每个未转录的非合成语音话语:生成未转录的语音表示的对应编码表示以及在应用于未转录的非合成语音话语的对应编码表示的对比上预训练音频编码器;以及对于每个合成语音表示:生成合成语音表示的对应编码表示以及在应用于合成语音表示的对应编码表示的对比损失上预训练音频编码器。

3、在一些实施方式中,预训练音频编码器包括,在用于每个合成语音表示的多个时间步中的每个时间步处:使用辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第一概率分布;基于可能的合成语音识别假设上的第一概率分布和与对应的合成语音表示相对应的非口头文本话语来确定合成语音损失项;以及基于合成语音损失项来预训练音频编码器。在此,可能的合成语音识别假设上的第一概率分布可以包括可能的音素标签或可能的词块标签之一。

4、在这些实施方式中,预训练音频编码器还可以包括,在用于每个合成语音表示的多个时间步中的每个时间步处:使用另一辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第二概率分布,可能的合成语音识别假设上的第二概率分布包括可能的音素标签或可能的词块标签中的另一个;基于可能的合成语音识别假设上的第二概率分布和与对应的合成语音表示相对应的非口头文本话语来确定另一合成语音损失项;以及基于另一合成语音损失项来预训练音频编码器。辅助解码器和另一辅助解码器可以分别包括连接时间分类解码器(ctc)、倾听注意拼写(las)解码器或递归神经网络-换能器(rnn-t)解码器中的一个。

5、在一些实例中,操作进一步包括:在合成语音表示上预训练音频编码器之前,增强合成语音表示中的一个或多个。在此,在合成语音表示上预训练音频编码器可以包括在增强的一个或多个合成语音表示上预训练音频编码器。可以使用一个或多个语言模型来生成和/或选择非口头文本话语。

6、在一些实施方式中,使用背景语言模型和在与目标域相关联的转录的语音话语上训练的域内语言模型来生成非口头文本话语。附加地或替代地,操作可以进一步包含:在预训练音频编码器之后,在转录的语音话语上微调预训练的音频编码器。

7、本公开的另一方面提供了一种系统,该系统包括数据处理硬件和存储指令的存储器硬件,指令当在数据处理硬件上执行时使数据处理硬件执行操作。操作包括接收训练数据,训练数据包括非口头文本话语和未转录的非合成语音话语。每个非口头文本话语不与非合成语音的任何对应的口头话语配对。每个未转录的非合成语音话语不与对应的转录配对。操作还包括使用文本到语音模型,为所接收的训练数据的每个非口头文本话语生成对应的合成语音表示。操作还包括在为非口头文本话语生成的合成语音表示和未转录的非合成语音话语上预训练音频编码器,以教导音频编码器联合学习共享语音和文本表示。

8、本公开的该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,音频编码器包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。在一些示例中,预训练音频编码器包括:对于每个未转录的非合成语音话语:生成未转录的语音表示的对应编码表示以及在应用于未转录的非合成语音话语的对应编码表示的对比上预训练音频编码器;以及对于每个合成语音表示:生成合成语音表示的对应编码表示以及在应用于合成语音表示的对应编码表示的对比损失上预训练音频编码器。

9、在一些实施方式中,预训练音频编码器包括,在用于每个合成语音表示的多个时间步中的每个时间步处:使用辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第一概率分布;基于可能的合成语音识别假设上的第一概率分布和与对应的合成语音表示相对应的非口头文本话语来确定合成语音损失项;以及基于合成语音损失项来预训练音频编码器。在此,可能的合成语音识别假设上的第一概率分布可以包括可能的音素标签或可能的词块标签之一。

10、在这些实施方式中,预训练音频编码器还可以包括,在用于每个合成语音表示的多个时间步中的每个时间步处:使用另一辅助解码器为对应的合成语音表示生成可能的合成语音识别假设上的第二概率分布,可能的合成语音识别假设上的第二概率分布包括可能的音素标签或可能的词块标签中的另一个;基于可能的合成语音识别假设上的第二概率分布和与对应的合成语音表示相对应的非口头文本话语来确定另一合成语音损失项;以及基于另一合成语音损失项来预训练音频编码器。辅助解码器和另一辅助解码器可以分别包括连接时间分类解码器(ctc)、倾听注意拼写(las)解码器或递归神经网络-换能器(rnn-t)解码器中的一个。

11、在一些实例中,操作进一步包括:在合成语音表示上预训练音频编码器之前,增强合成语音表示中的一个或多个。在此,在合成语音表示上预训练音频编码器可以包括在增强的一个或多个合成语音表示上预训练音频编码器。可以使用一个或多个语言模型来生成和/或选择非口头文本话语。

12、在一些实施方式中,使用背景语言模型和在与目标域相关联的转录的语音话语上训练的域内语言模型来生成非口头文本话语。附加地或替代地,操作可以进一步包含:在预训练音频编码器之后,在转录的语音话语上微调预训练的音频编码器。

13、在下面的附图和描述中阐述本公开的一个或多个实施方式的细节。其他方面、特征和优点将通过描述和附图并且通过权利要求而显而易见。<本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法(500),当在数据处理硬件(610)上执行时,使所述数据处理硬件(610)执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法(500),其中,所述音频编码器(210)包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。

3.根据权利要求1或2所述的计算机实现的方法(500),其中,预训练所述音频编码器(210)包括:

4.根据权利要求1至3中的任一项所述的计算机实现的方法(500),其中,预训练所述音频编码器(210)包括,在用于每个合成语音表示(332)的多个时间步中的每个时间步处:

5.根据权利要求4所述的计算机实现的方法(500),其中,可能的合成语音识别假设上的所述第一概率分布(392)包括可能的音素标签或可能的词块标签之一。

6.根据权利要求5所述的计算机实现的方法(500),其中,预训练所述音频编码器(210)进一步包括,在用于每个合成语音表示(332)的所述多个时间步中的每个时间步处:

7.根据权利要求4至6中的任一项所述的计算机实现的方法(500),其中,所述辅助解码器(390)包括连接时间分类(CTC)解码器、倾听注意拼写(LAS)解码器或递归神经网络-换能器(RNN-T)解码器中的一个。

8.根据权利要求1至7中的任一项所述的计算机实现的方法(500),其中,所述操作进一步包括:在所述合成语音表示(332)上预训练所述音频编码器(210)之前,增强所述合成语音表示(332)中的一个或多个。

9.根据权利要求8所述的计算机实现的方法(500),其中,在所述合成语音表示(332)上预训练所述音频编码器(210)包括在所增强的一个或多个合成语音表示(332)上预训练所述音频编码器(210)。

10.根据权利要求1至9中任一项所述的计算机实现的方法(500),其中,使用一个或多个语言模型(404,406)来生成和/或选择所述非口头文本话语(320)。

11.根据权利要求1至10中的任一项所述的计算机实现的方法(500),其中,使用背景语言模型(406)和在与目标域相关联的转录的语音话语(304)上训练的域内语言模型(404)来生成所述非口头文本话语(320)。

12.根据权利要求1至11中的任一项所述的计算机实现的方法(500),其中,所述操作进一步包括:在预训练所述音频编码器(210)之后,在转录的语音话语上微调所预训练的音频编码器(210)。

13.一种系统(100),包括:

14.根据权利要求13所述的系统(100),其中,所述音频编码器(210)包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。

15.根据权利要求13或14所述的系统(100),其中,预训练所述音频编码器(210)包括:

16.根据权利要求13至15中的任一项所述的系统(100),其中,预训练所述音频编码器(210)包括,在用于每个合成语音表示(332)的多个时间步中的每个时间步处:

17.根据权利要求16所述的系统(100),其中,可能的合成语音识别假设上的所述第一概率分布(392)包括可能的音素标签或可能的词块标签之一。

18.根据权利要求17所述的系统(100),其中,预训练所述音频编码器(210)进一步包括,在用于每个合成语音表示(332)的所述多个时间步中的每个时间步处:

19.根据权利要求16至18中的任一项所述的系统(100),其中,所述辅助解码器(390)包括连接时间分类(CTC)解码器、倾听注意拼写(LAS)解码器或递归神经网络-换能器(RNN-T)解码器中的一个。

20.根据权利要求13至18中的任一项所述的系统(100),其中,所述操作进一步包括:在所述合成语音表示(332)上预训练所述音频编码器(210)之前,增强所述合成语音表示(332)中的一个或多个。

21.根据权利要求20所述的系统(100),其中,在所述合成语音表示(332)上预训练所述音频编码器(210)包括在所增强的一个或多个合成语音表示(332)上预训练所述音频编码器(210)。

22.根据权利要求13-21中的任一项所述的系统(100),其中,,使用一个或多个语言模型(404,406)来生成和/或选择所述非口头文本话语(320)。

23.根据权利要求13至22中的任一项所述的系统(100),其中,使用背景语言模型(406)和在与目标域相关联的转录的语音话语(304)上训练的域内语言模型(404)来生成所述非口头文本话语(320)。...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法(500),当在数据处理硬件(610)上执行时,使所述数据处理硬件(610)执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法(500),其中,所述音频编码器(210)包括自注意力层的堆叠,每个自注意力层包括多头自注意力机制。

3.根据权利要求1或2所述的计算机实现的方法(500),其中,预训练所述音频编码器(210)包括:

4.根据权利要求1至3中的任一项所述的计算机实现的方法(500),其中,预训练所述音频编码器(210)包括,在用于每个合成语音表示(332)的多个时间步中的每个时间步处:

5.根据权利要求4所述的计算机实现的方法(500),其中,可能的合成语音识别假设上的所述第一概率分布(392)包括可能的音素标签或可能的词块标签之一。

6.根据权利要求5所述的计算机实现的方法(500),其中,预训练所述音频编码器(210)进一步包括,在用于每个合成语音表示(332)的所述多个时间步中的每个时间步处:

7.根据权利要求4至6中的任一项所述的计算机实现的方法(500),其中,所述辅助解码器(390)包括连接时间分类(ctc)解码器、倾听注意拼写(las)解码器或递归神经网络-换能器(rnn-t)解码器中的一个。

8.根据权利要求1至7中的任一项所述的计算机实现的方法(500),其中,所述操作进一步包括:在所述合成语音表示(332)上预训练所述音频编码器(210)之前,增强所述合成语音表示(332)中的一个或多个。

9.根据权利要求8所述的计算机实现的方法(500),其中,在所述合成语音表示(332)上预训练所述音频编码器(210)包括在所增强的一个或多个合成语音表示(332)上预训练所述音频编码器(210)。

10.根据权利要求1至9中任一项所述的计算机实现的方法(500),其中,使用一个或多个语言模型(404,406)来生成和/或选择所述非口头文本话语(320)。

11.根据权利要求1至10中的任一项所述的计算机实现的方法(500),其中,使用背景语言模型(406)和在与目标域相关联的转录的语音话语(304)上训练的域内语言模型(404)来生成所述非口头文本话语(320)。

12.根据权利要求1至11中的任一项所述的计算机实现的方法(500),其中,所述操作进一步包括:在预训练所述音...

【专利技术属性】
技术研发人员:陈哲怀布瓦那·拉马巴德兰安德鲁·M·罗森贝格张羽佩德罗·J·莫雷诺·门吉巴尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1