用于训练语音模型的语音合成的设备上个人化制造技术

技术编号:36493267 阅读:19 留言:0更新日期:2023-02-01 15:08
客户端设备的处理器能够:识别本地存储在客户端设备处的文本片段;使用设备上TTS生成器模型来处理文本片段,以生成包括文本片段的合成语音的合成语音音频数据;使用设备上ASR模型处理合成语音,以生成预测的ASR输出;以及基于将预测的ASR输出与对应于文本片段的基本事实输出进行比较来生成梯度。客户端设备的处理器还能够:使用设备上TTS生成器模型来处理合成语音音频数据,以进行预测;以及基于预测来生成梯度。在这些实施方式中,所生成的梯度能够用于更新相应的设备上模型的权重和/或被传送到远程系统,以便在相应的全局模型的远程更新中使用。更新的权重和/或更新的模型能够被传送到客户端设备。被传送到客户端设备。被传送到客户端设备。

【技术实现步骤摘要】
【国外来华专利技术】用于训练语音模型的语音合成的设备上个人化

技术介绍

[0001]基于声音的用户接口被越来越多地用于计算机和其它电子设备的控制。基于声音的用户接口已经不断从只能够理解简单和直接命令的早期初级接口演变到响应自然语言请求并且能够理解场境并管理与用户的来回对话或会话的更复杂的接口。许多基于声音的用户接口执行关于口头话语的语音识别(例如,使用语音到文本(STT)模型)以生成对应的文本,执行对应的文本的语义分析以尝试确定口头话语的含义,基于所确定的含义来采取一个或多个动作,跟踪每个会话的流程,以及利用提供了口头话语的用户的指示来注释口头话语和/或对应的文本。一些基于声音的用户接口还能够基于文本来合成语音(例如,使用文本到语音模型)以生成对应的合成语音音频数据,并且在客户端设备处可听地渲染合成语音音频数据。
[0002]虽然语音识别的性能已经不断提高,但在许多情形下仍能够发生不准确的语音识别。作为非限制性示例,对于新术语和/或在训练语音识别模型的训练语料库中相对不常用(或不存在)的术语能够发生不准确的语音识别。在尝试有效地识别新术语和/或不常用术语中,已经提出了一些技术来生成除一个初始假设(或多个初始假设)之外的另外的语音识别假设,并且将另外的语音识别假设视为语音识别的候选。然而,这种技术需要另外的后处理,并且在许多情况下仍然无法导致许多术语的有效识别,诸如当一个初始假设/多个初始假设太离谱和/或当用于另外的假设的词典不包括某些术语时。
[0003]此外,当在设备上(即,在客户端设备上)执行语音识别时,不准确的语音识别能够被加剧。这能够由于,例如,设备上的语音识别模型不如基于云的模型健壮,设备上的存储器和/或处理器资源比基于云的资源更受限制,和/或另外的假设生成词典或语言模型在设备上更受限制。

技术实现思路

[0004]本文公开的一些实施方式涉及利用本地存储在客户端设备处的设备上自动语音识别(ASR)模型提高在客户端设备处本地执行的语音识别的性能。在那些实施方式中的一些中,客户端设备的处理器:基于多个训练实例来训练设备上文本到语音(TTS)生成器模型,该TTS生成器模型是本地存储在客户端设备处(例如,在客户端设备的RAM和/或ROM中)的生成对抗网络(GAN)模型的一部分。如本文详细描述的,能够训练设备上TTS生成器模型以包括客户端设备的用户的声音特性。此外,在训练设备上TTS生成器模型之后,客户端设备的处理器:识别本地存储在客户端设备处的文本片段,使用经训练的设备上TTS生成器模型来处理文本片段以生成包括对应于文本片段的合成语音的合成语音音频数据;使用设备上ASR模型处理合成语音音频数据以生成预测的ASR输出;以及基于将预测的ASR输出与对应于文本片段的基本事实(ground truth)输出进行比较来生成梯度。通过利用经训练的设备上TTS生成器模型来生成在生成梯度时利用的合成语音音频数据,能够使用基于包括客户端设备的用户的声音特性的合成语音音频数据所生成的并且基于可能在客户端设备处遇到的文本片段的梯度,来更新设备上ASR模型,从而改善设备上ASR模型的性能。例如,通
过以这些和其它方式更新ASR模型,能够将设备上ASR模型个性化以识别可能在客户端设备处遇到的这些文本片段,但是否则不可能在其它用户的相应客户端设备处遇到,因此在没有设备上ASR模型的这种个性化的情况下更难以识别。
[0005]例如,设备上ASR模型能够是用于生成预测的文本片段的预测的ASR输出的端到端语音识别模型,并且生成梯度能够基于将预测的文本片段与对应于基本事实输出的基本事实文本片段进行比较。此外,例如,设备上ASR模型能够替换地被用于生成预测音素序列的预测的ASR输出,并且生成梯度能够基于将预测音素序列与对应于基本事实输出的基本事实音素序列进行比较。
[0006]在一些实施方式中,由客户端设备的一个或多个处理器使用生成的梯度基于生成的梯度来更新设备上ASR模型的一个或多个权重。例如,反向传播和/或其它(多种)技术能够被用于基于梯度来更新设备上ASR模型的局部权重。这能够提高使用设备上ASR模型的客户端设备处对于包括文本片段的口头话语的语音识别性能。此外,这使设备上ASR模型能够基于特定文本片段而被训练,而不需要特定文本片段的任何实际人类话语(因为TTS生成器模型被用于生成特定文本片段的合成语音)。因此,能够使用设备上ASR模型正确地识别特定文本片段,尽管该文本片段可能尚未被包括在之前在客户端设备处检测的任何口头话语中。此外,许多实施方式对于在客户端设备处本地存储的大量文本片段重复该过程,从而提高针对于包括文本片段中的任何一个的口头话语的设备上语音识别性能。这将设备上ASR模型有效地定制为实际文本片段,该实际文本片段(暂态地或非暂态地)被存储在设备上并且可能被包括在涉及客户端设备的口头话语中。
[0007]在一些实施方式中,基于生成的梯度而被更新的设备上ASR模型能够是对当前被客户端设备利用来执行对在客户端设备处检测的口头话语的语音识别的设备上ASR模型的添加。在这些实施方式中,被更新的设备上ASR模型可以响应于一个或多个条件被满足而部署,以有效地替换当前正在被利用的设备上ASR模型(从而变成当前正在被利用的设备上ASR模型)。例如,条件能够包括:被更新的设备上ASR模型的设备上验证;设备上确定被更新的设备上ASR模型比当前正在被利用的设备上ASR模型进行得更好(例如,在精度和/或召回方面);和/或被更新的设备上ASR模型的至少阈值训练量和/或训练持续时间的发生。例如,确定被更新的设备上ASR模型比当前正在被利用的设备上ASR模型表现得更好能够基于以根据本文中描述的技术生成但尚未在训练中使用(即,替代地被保留用于测试)的训练实例为基础来比较执行。作为另一示例,确定被更新的设备上ASR模型比当前正在被利用的设备上ASR模型表现行得更好能够基于在客户端设备(例如,从远程系统)下载测试话语,并且使用更新的设备上ASR模型来处理测试话语,以验证更新的设备上ASR模型没有发散。部署当前被利用的设备上ASR模型以有效地替换更新的设备上ASR模型能够包括利用更新的设备上ASR模型的权重来更新当前被利用的设备上ASR模型的权重,或者利用更新的设备上ASR模型来替换当前被利用的设备上ASR模型。一旦更新的设备上ASR模型有效地替换当前被利用的设备上ASR模型并且被用于语音识别,更新的设备上ASR模型的副本然后能够被用作要被更新的设备上ASR新模型。
[0008]在一些实施方式中,另外或替代地由客户端设备并且通过网络向远程系统传送生成的梯度。在这些实施方式中,远程系统利用生成的梯度和来自另外客户端设备和/或来自远程系统的另外梯度来更新全局ASR模型的全局权重。能够基于对应的本地存储的文本片
段以及其本地生成的合成的语音,在对应的另外客户端设备处相似地本地生成来自另外的客户端设备的另外梯度。在各种实施方式中,客户端设备发送生成的梯度而不发送以下中的任一个:文本片段、合成语音音频数据、预测的ASR输出、以及对应于文本片段的基本事实输出。远程系统能够利用生成的梯度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:基于多个训练实例来训练设备上文本到语音TTS生成器模型,其中,所述设备上TTS生成器模型是本地存储在所述客户端设备处的生成对抗网络GAN模型的一部分,其中,所述GAN模型还包括设备上TTS鉴别器模型,并且其中,训练所述TTS生成器模型包括训练所述设备上TTS生成器模型以生成包括所述客户端设备的所述用户的声音特性的合成语音音频数据;以及在训练所述设备上TTS生成器模型之后:识别本地存储在用户的所述客户端设备处的文本片段;使用本地存储在所述客户端设备处的经训练的设备上TTS生成器模型来处理所述文本片段,以生成包括与所述文本片段对应的合成语音的另外合成语音音频数据;使用本地存储在所述客户端设备处的设备上自动语音识别ASR模型来处理所述另外合成语音音频数据,以生成对应的预测ASR输出;基于将所述对应的预测ASR输出与对应于所述文本片段的基本事实输出进行比较来生成梯度;以及基于所生成的梯度来更新所述设备上ASR模型的局部权重。2.根据权利要求1所述的方法,其中,所述多个训练实例是生成器训练实例;其中,所述多个训练实例中的每一个包括训练实例输入和训练实例输出,所述训练实例输入包括本地存储在所述客户端设备处的给定文本片段,以及所述训练实例输出包括基本事实标签;以及其中,基于所述多个训练实例中的给定训练实例来训练本地存储在所述客户端设备处的所述设备上TTS生成器模型包括:使用所述设备上TTS生成器模型来处理所述给定文本片段,以生成包括与所述给定文本片段对应的预测的合成语音的预测的合成语音音频数据;使用所述设备上TTS鉴别器模型来处理所述预测的合成语音音频数据,以预测所述预测的合成语音音频数据是对应于所述客户端设备的所述用户的实际口头话语还是由所述设备上TTS生成器模型所生成的所述预测的合成语音;以及基于所述基本事实标签和基于使用所述设备上TTS鉴别器模型进行处理来生成损失。3.根据权利要求2所述的方法,其中,所述训练实例输出还包括基本事实音频数据,所述基本事实音频数据包括对应于所述给定文本片段的所述用户的给定口头话语;以及其中,基于所述多个训练实例中的所述给定训练实例来训练本地存储在所述客户端设备处的所述设备上TTS生成器模型还包括:将包括所述预测的合成语音的所述预测的合成语音音频数据与包括所述用户的所述给定口头话语的所述基本事实音频数据进行比较;以及基于将所述预测的合成语音音频数据与所述基本事实音频数据进行比较来生成另外损失。4.根据权利要求3所述的方法,其中,将所述预测的合成语音音频数据与所述基本事实音频数据进行比较包括:将所述基本事实音频数据的声学特征与所述预测的合成语音音频
数据的合成声学特征进行比较。5.根据权利要求3所述的方法,还包括:基于所述损失或所述另外损失中的一个或多个来更新所述设备上TTS生成器模型;以及其中,基于所述损失或所述另外损失中的一个或多个来更新所述设备上TTS生成器模型包括跨所述设备上TTS生成器模型反向传播所述损失或所述另外损失中的一个或多个。6.根据权利要求1所述的方法,还包括:在训练所述设备上TTS生成器模型之前:基于多个另外训练实例来训练所述设备上TTS鉴别器模型。7.根据权利要求6所述的方法,其中,所述多个另外训练实例是鉴别器训练实例;其中,所述多个另外训练实例中的每一个包括另外训练实例输入和另外训练实例输出,所述另外训练实例输入包括:包括所述客户端设备的所述用户的给定口头话语的给定音频数据,或者包括由所述设备上TTS生成器模型所生成的合成语音的合成语音音频数据,以及所述训练实例输出包括指示所述另外训练实例输入是对应于所述给定音频数据还是所述合成语音音频数据的基本事实标签;以及其中,基于所述多个另外训练实例中的给定训练实例来训练本地存储在所述客户端设备处的所述设备上TTS鉴别器模型包括:使用所述设备上TTS鉴别器模型来处理所述给定训练实例输入,以预测所述给定训练实例输入是对应于所述客户端设备的所述用户的实际口头话语还是由所述设备上TTS生成器模型所生成的所述合成语音;基于所述基本事实标签并且基于使用所述设备上TTS鉴别器模型进行处理来生成损失;以及基于所述损失来更新所述设备上TTS鉴别器模型。8.根据权利要求1所述的方法,其中,所述客户端设备的所述用户的所述声音特性包括所述用户的声音的韵律属性,其中,所述用户的所述声音的所述韵律属性包括以下中的一个或多个:语调、音调、重音、频率、节奏和停顿。9.根据权利要求1所述的方法,还包括:通过网络向远程系统传送到所述远程系统的所生成的梯度,而不传送以下中的任一个:所述另外文本片段、所述另外合成语音音频数据、和所述对应的预测ASR输出,以及其中,所述远程系统利用所生成的梯度和来自另外客户端设备的另外梯度来更新全局ASR模型的全局权重。10.根据权利要求9所述的方法,还包括:在所述客户端设备处并且从所述远程系统接收所述全局ASR模型或所更新的全局权重,其中,接收所述全局ASR模型或所更新的全局权重在所述远程系统基于所述梯度和所述另外梯度来更新所述全局ASR模型的所述全局权重之后;以及响应于接收到所述全局ASR模型或所更新的全局权重,在所述客户端设备的本地存储
装置中,利用所述全局ASR模型替换所述设备上ASR模型或者利用所述全局ASR模型的所更新的全局权重替换所述设备上ASR模型的所述局部权重。11.一种由客户端设备的一个或多个处理器实现的方法,所述方法包括:识别...

【专利技术属性】
技术研发人员:弗朗索瓦丝
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1