【技术实现步骤摘要】
【国外来华专利技术】用于训练语音模型的语音合成的设备上个人化
技术介绍
[0001]基于声音的用户接口被越来越多地用于计算机和其它电子设备的控制。基于声音的用户接口已经不断从只能够理解简单和直接命令的早期初级接口演变到响应自然语言请求并且能够理解场境并管理与用户的来回对话或会话的更复杂的接口。许多基于声音的用户接口执行关于口头话语的语音识别(例如,使用语音到文本(STT)模型)以生成对应的文本,执行对应的文本的语义分析以尝试确定口头话语的含义,基于所确定的含义来采取一个或多个动作,跟踪每个会话的流程,以及利用提供了口头话语的用户的指示来注释口头话语和/或对应的文本。一些基于声音的用户接口还能够基于文本来合成语音(例如,使用文本到语音模型)以生成对应的合成语音音频数据,并且在客户端设备处可听地渲染合成语音音频数据。
[0002]虽然语音识别的性能已经不断提高,但在许多情形下仍能够发生不准确的语音识别。作为非限制性示例,对于新术语和/或在训练语音识别模型的训练语料库中相对不常用(或不存在)的术语能够发生不准确的语音识别。在尝试有效地识别新术语和/或不常用术语中,已经提出了一些技术来生成除一个初始假设(或多个初始假设)之外的另外的语音识别假设,并且将另外的语音识别假设视为语音识别的候选。然而,这种技术需要另外的后处理,并且在许多情况下仍然无法导致许多术语的有效识别,诸如当一个初始假设/多个初始假设太离谱和/或当用于另外的假设的词典不包括某些术语时。
[0003]此外,当在设备上(即,在客户端设备上)执行语音识别时,不准确的语音识别能够被加剧。这能够由于 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:基于多个训练实例来训练设备上文本到语音TTS生成器模型,其中,所述设备上TTS生成器模型是本地存储在所述客户端设备处的生成对抗网络GAN模型的一部分,其中,所述GAN模型还包括设备上TTS鉴别器模型,并且其中,训练所述TTS生成器模型包括训练所述设备上TTS生成器模型以生成包括所述客户端设备的所述用户的声音特性的合成语音音频数据;以及在训练所述设备上TTS生成器模型之后:识别本地存储在用户的所述客户端设备处的文本片段;使用本地存储在所述客户端设备处的经训练的设备上TTS生成器模型来处理所述文本片段,以生成包括与所述文本片段对应的合成语音的另外合成语音音频数据;使用本地存储在所述客户端设备处的设备上自动语音识别ASR模型来处理所述另外合成语音音频数据,以生成对应的预测ASR输出;基于将所述对应的预测ASR输出与对应于所述文本片段的基本事实输出进行比较来生成梯度;以及基于所生成的梯度来更新所述设备上ASR模型的局部权重。2.根据权利要求1所述的方法,其中,所述多个训练实例是生成器训练实例;其中,所述多个训练实例中的每一个包括训练实例输入和训练实例输出,所述训练实例输入包括本地存储在所述客户端设备处的给定文本片段,以及所述训练实例输出包括基本事实标签;以及其中,基于所述多个训练实例中的给定训练实例来训练本地存储在所述客户端设备处的所述设备上TTS生成器模型包括:使用所述设备上TTS生成器模型来处理所述给定文本片段,以生成包括与所述给定文本片段对应的预测的合成语音的预测的合成语音音频数据;使用所述设备上TTS鉴别器模型来处理所述预测的合成语音音频数据,以预测所述预测的合成语音音频数据是对应于所述客户端设备的所述用户的实际口头话语还是由所述设备上TTS生成器模型所生成的所述预测的合成语音;以及基于所述基本事实标签和基于使用所述设备上TTS鉴别器模型进行处理来生成损失。3.根据权利要求2所述的方法,其中,所述训练实例输出还包括基本事实音频数据,所述基本事实音频数据包括对应于所述给定文本片段的所述用户的给定口头话语;以及其中,基于所述多个训练实例中的所述给定训练实例来训练本地存储在所述客户端设备处的所述设备上TTS生成器模型还包括:将包括所述预测的合成语音的所述预测的合成语音音频数据与包括所述用户的所述给定口头话语的所述基本事实音频数据进行比较;以及基于将所述预测的合成语音音频数据与所述基本事实音频数据进行比较来生成另外损失。4.根据权利要求3所述的方法,其中,将所述预测的合成语音音频数据与所述基本事实音频数据进行比较包括:将所述基本事实音频数据的声学特征与所述预测的合成语音音频
数据的合成声学特征进行比较。5.根据权利要求3所述的方法,还包括:基于所述损失或所述另外损失中的一个或多个来更新所述设备上TTS生成器模型;以及其中,基于所述损失或所述另外损失中的一个或多个来更新所述设备上TTS生成器模型包括跨所述设备上TTS生成器模型反向传播所述损失或所述另外损失中的一个或多个。6.根据权利要求1所述的方法,还包括:在训练所述设备上TTS生成器模型之前:基于多个另外训练实例来训练所述设备上TTS鉴别器模型。7.根据权利要求6所述的方法,其中,所述多个另外训练实例是鉴别器训练实例;其中,所述多个另外训练实例中的每一个包括另外训练实例输入和另外训练实例输出,所述另外训练实例输入包括:包括所述客户端设备的所述用户的给定口头话语的给定音频数据,或者包括由所述设备上TTS生成器模型所生成的合成语音的合成语音音频数据,以及所述训练实例输出包括指示所述另外训练实例输入是对应于所述给定音频数据还是所述合成语音音频数据的基本事实标签;以及其中,基于所述多个另外训练实例中的给定训练实例来训练本地存储在所述客户端设备处的所述设备上TTS鉴别器模型包括:使用所述设备上TTS鉴别器模型来处理所述给定训练实例输入,以预测所述给定训练实例输入是对应于所述客户端设备的所述用户的实际口头话语还是由所述设备上TTS生成器模型所生成的所述合成语音;基于所述基本事实标签并且基于使用所述设备上TTS鉴别器模型进行处理来生成损失;以及基于所述损失来更新所述设备上TTS鉴别器模型。8.根据权利要求1所述的方法,其中,所述客户端设备的所述用户的所述声音特性包括所述用户的声音的韵律属性,其中,所述用户的所述声音的所述韵律属性包括以下中的一个或多个:语调、音调、重音、频率、节奏和停顿。9.根据权利要求1所述的方法,还包括:通过网络向远程系统传送到所述远程系统的所生成的梯度,而不传送以下中的任一个:所述另外文本片段、所述另外合成语音音频数据、和所述对应的预测ASR输出,以及其中,所述远程系统利用所生成的梯度和来自另外客户端设备的另外梯度来更新全局ASR模型的全局权重。10.根据权利要求9所述的方法,还包括:在所述客户端设备处并且从所述远程系统接收所述全局ASR模型或所更新的全局权重,其中,接收所述全局ASR模型或所更新的全局权重在所述远程系统基于所述梯度和所述另外梯度来更新所述全局ASR模型的所述全局权重之后;以及响应于接收到所述全局ASR模型或所更新的全局权重,在所述客户端设备的本地存储
装置中,利用所述全局ASR模型替换所述设备上ASR模型或者利用所述全局ASR模型的所更新的全局权重替换所述设备上ASR模型的所述局部权重。11.一种由客户端设备的一个或多个处理器实现的方法,所述方法包括:识别...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。