利用基于语音合成的模型适配改进语音识别制造技术

技术编号:40933529 阅读:30 留言:0更新日期:2024-04-18 14:53
用于训练语音识别模型(200)的方法(400)包括:获取目标域中的合成语音(306)的样本话语;获取目标域中的非合成语音(304)的转录话语;以及在目标域中的合成语音的样本话语上预训练语音识别模型以获得用于热启动训练的初始状态。在预训练语音识别模型后,方法还包括在目标域中的非合成语音的转录话语上热启动训练语音识别模型以教导语音识别模型学习识别目标域中的真实/人类语音。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及利用基于语音合成的模型适配来改进语音识别。


技术介绍

1、自动语音识别(asr)、采取音频输入并且将其转录成文本的过程已经成为移动设备和其他设备中使用的重要技术。通常,自动语音识别尝试通过采取音频输入(例如,语音话语)并且将音频输入转录成文本来提供人已经说过什么的准确转录。现代asr模型基于深度神经网络的正在进行的开发而继续在准确性(例如,低词错率(wer))和时延(例如,用户说话与转录之间的延迟)这两者上进行改进。然而,开发基于深度学习的asr模型的一个挑战是,asr模型的参数倾向于过拟合训练数据,从而导致asr模型在训练数据不够广泛时难以泛化未见的数据。结果,在更大的训练数据集上训练asr模型改进了asr模型的准确性。能够并入合成语音和/或数据增强语音以增加用于训练asr模型的训练数据的音量。


技术实现思路

1、本公开的一个方面提供了一种计算机实现的方法,该方法在数据处理硬件上执行时使数据处理硬件执行操作。操作包括:获取目标域中的合成语音的样本话语以及获取目标域中的非合成语音的转录话语。操作还包本文档来自技高网...

【技术保护点】

1.一种由数据处理硬件(510)执行的计算机实现的方法(400),所述方法使所述数据处理硬件(510)执行操作,所述操作包括:

2.根据权利要求1所述的方法(400),其中,获取所述目标域中的所述合成语音(306)的样本话语包括使用文本到语音(TTS)系统(330),基于作为在所述TTS系统(330)处的输入接收的话语的对应转录(320)来生成合成语音(306)的每个样本话语。

3.根据权利要求2所述的方法(400),其中,从语言模型对所述对应转录(320)进行采样。

4.根据权利要求2或3所述的方法(400),其中,在所述目标域中的转录音频样本上训练...

【技术特征摘要】
【国外来华专利技术】

1.一种由数据处理硬件(510)执行的计算机实现的方法(400),所述方法使所述数据处理硬件(510)执行操作,所述操作包括:

2.根据权利要求1所述的方法(400),其中,获取所述目标域中的所述合成语音(306)的样本话语包括使用文本到语音(tts)系统(330),基于作为在所述tts系统(330)处的输入接收的话语的对应转录(320)来生成合成语音(306)的每个样本话语。

3.根据权利要求2所述的方法(400),其中,从语言模型对所述对应转录(320)进行采样。

4.根据权利要求2或3所述的方法(400),其中,在所述目标域中的转录音频样本上训练所述tts系统(330)。

5.根据权利要求2至4中的任一项所述的方法(400),其中,在与所述目标域不同的域外音频样本上训练所述tts系统(330)。

6.根据权利要求2至5中的任一项所述的方法(400),其中,所述tts系统(330)被配置为跨合成语音(306)的话语改变话音特性。

7.根据权利要求2至6中的任一项所述的方法(400),其中,所述tts系统(330)被配置为跨合成语音(306)的话语改变韵律/风格质量。

8.根据权利要求1至7中的任一项所述的方法(400),其中,所述操作还包括将数据增强应用于所述合成语音(306)的样本话语中的一个或多个。

9.根据权利要求8所述的方法(400),其中,所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

10.根据权利要求1至9中的任一项所述的方法(400),其中,所述语音识别模型(200)包括基于帧对准的换能器模型(200a)。

11.根据权利要求10所述的方法(400),其中,所述基于帧对准的换能器模型(200a)包括递归神经网络-换能器(rnn-t)模型(200a)。

12.根据权利要求1至11中的任一项所述的方法(400),其中,所述语音识别模型(200)包括基于对准的编码器-解码器模...

【专利技术属性】
技术研发人员:安德鲁·罗森伯格布瓦那·拉马巴德兰
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1