文本到语音模型和个性化模型生成的话音的受控训练和使用制造技术

技术编号:34634159 阅读:13 留言:0更新日期:2022-08-24 15:07
系统被配置成通过以下操作来以个性化话音生成文本到语音数据:在从特定用户收集的自然语音数据上训练文本到语音机器学习模型,确认从其收集数据的用户的身份,以及授权来自用户的使用个性化话音来生成新语音数据的请求。系统被进一步配置成用所生成的个性化语音数据来将机器学习模型训练为神经文本到语音模型。型。型。

【技术实现步骤摘要】
【国外来华专利技术】文本到语音模型和个性化模型生成的话音的受控训练和使用

技术介绍

[0001]文本到语音(TTS)模型是被配置成将任意文本转换成听起来是人类的语音数据的模型。有时被称为话音字体的TTS模型通常包括前端模块、声学模型和声码器。前端模块被配置成完成文本归一化(例如,将单位符号转换成可读单词)并且通常将文本转换成对应的音素序列。声学模型被配置成将输入的文本(或经转换的音素)转换成频谱序列,而声码器被配置成将频谱序列转换成语音波形数据。此外,声学模型决定文本将如何被发音(例如,以什么话音)。
[0002]源声学模型被配置为在多说话者数据上进行训练的多说话者模型。在一些情形中,使用目标说话者数据对源声学模型进一步完善或适配。通常,声学模型是依赖于说话者的,这意味着声学模型是直接在来自特定目标说话者的说话者数据上被训练的,或者通过使用来自特定目标说话者的说话者数据来完善源声学模型。
[0003]在经过良好训练的情况下,该模型能够将任何文本转换成接近地模仿目标说话者如何说话的语音,即,以相同的话音音色和类似的韵律。用于TTS模型的训练数据通常包括在特定目标说话者说话的同时对该特定说话者进行录音所获得的音频数据以及对应于该音频数据的文本集(即,目标说话者为了产生该音频数据所说的内容的文本表示)。
[0004]在一些实例中,用于训练TTS模型的文本由语音识别模型和/或自然语言理解模型生成,该语音识别模型和/或自然语言理解模型被具体地配置成识别和解读语音并且提供在音频数据中被识别出的单词的文本表示。在其他实例中,说话者被给予要大声朗读的预定稿件,其中该预定稿件和对应的音频数据被用于训练TTS模型。
[0005]最初,需要几千小时来构建源声学模型。接着,需要大量的训练数据来针对一种特定风格正确地训练TTS模型。在一些实例中,源声学模型针对特定话音的训练/完善可能需要数百个有时数千个句子的语音训练数据。因而,为了针对多种不同话音正确地训练(诸)TTS模型,必须针对不同目标说话者话音中的每一者收集成比例的训练数据量。这是一种用于记录和分析每种期望风格的数据的极端耗时且成本高昂的过程。此外,数据收集还具有重大的数据隐私挑战,例如在不违反用户数据隐私共享设置的情况下收集足够的数据。
[0006]由于上述挑战,大多数市售的TTS模型只能以一种或几种预编程话音读出文本。这些预编程话音通常会听起来是合成的或计算机化的。鉴于以上,存在对用于生成训练数据和训练模型(包括此类模型的部署)以供TTS模型以个性化话音产生语音数据的改进的系统和方法。
[0007]本文中所要求保护的主题不限于解决任何缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反,提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性


技术实现思路

[0008]所公开的实施例涉及用于文本到语音(TTS)模型和个性化模型生成的话音的受控训练和使用的实施例。在一些实例中,所公开的实施例包括训练TTS模型以用于以个性化话
音生成语音数据。在一些实例中,所生成的语音数据被用于进一步训练机器学习模型以供以个性化话音进行文本到语音(TTS)转换。另外,一些实施例涉及用于生成针对特定用户简档的个性化话音的系统和方法。
[0009]一些实施例包括用于获得包括自然语音数据的第一训练数据集的方法和系统。在这些实施例中,计算系统标识特定用户简档并通过至少验证第一训练数据集对应于该特定用户简档来验证对使用第一训练数据集来训练TTS机器学习模型的授权。计算系统然后用第一训练数据集来训练该TTS机器学习模型,该模型被配置成以个性化话音生成音频。TTS机器学习模型被训练成以对应于特定用户简档的个性化话音生成音频。在一些实例中,第一训练数据集包括通过用户读预设文本话语来记录的初始自然语音数据集以及从对应于该用户的使用日志中获得的第二自然语音数据集。
[0010]在一些实例中,所公开的各实施例涉及用于使用TTS机器学习模型来以个性化话音生成TTS数据的实施例。在此类实例中,计算系统接收使用个性化话音来生成文本到语音数据的用户请求。在访问与个性化话音相关联的许可数据后,计算系统确定该许可数据授权或限制如所请求的对个性化话音的使用。在确定许可数据授权如所请求的对个性化话音的使用之际,使用该个性化话音来生成文本到语音数据,或替代地,在确定许可数据限制如所请求的对个性化话音的使用之际,不生成文本到语音数据,除非接收到授权对个性化话音的使用的后续许可数据。
[0011]提供本公开内容以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,亦非旨在用于帮助确定所要求保护的主题的范围。
[0012]附加特征和优点将在以下描述中阐述,且部分会从描述中显而易见,或者可以通过实践本文中的示教来习得。本专利技术的特征和优点可借助于在所附权利要求书中特别指出的工具和组合来实现和获得。本专利技术的特征将从以下描述和所附权利要求书中变得更完全的显见,或者可以通过如下文所阐述的本专利技术的实践来习得。
附图说明
[0013]为了描述可获得以上记载的及其他优点和特征的方式,将参照各具体实施例呈现以上简述的主题的更具体描述,各具体实施例在附图中例示。理解这些附图仅描述典型的实施例,因此不应被视为限制本专利技术的范围,各实施例将通过使用附图以附加的具体性和细节来描述和解释,附图中:
[0014]图1例示了其中纳入了计算系统和/或被用于执行所公开的各实施例的所公开的各方面的计算环境。所例示的计算系统被配置成用于文本到语音生成和机器学习模型训练,并且包括(诸)硬件存储设备和多个机器学习引擎。该计算系统与(诸)远程/第三方系统通信。
[0015]图2例示了用于训练机器学习模型以生成针对目标说话者的个性化语音数据的过程流图的一个实施例。
[0016]图3例示了根据本文所公开的各实施例的神经TTS模型的示例配置的一实施例。
[0017]图4例示了示出生成训练数据并且训练神经TTS模型的高级视图的过程流程图的一实施例。
[0018]图5例示了具有与用于训练TTS机器学习模型以便以个性化话音生成语音数据的各种方法相关联的多个动作的示图的实施例。
[0019]图6例示了具有与用于获得训练数据以训练机器学习模型以用于以个性化话音进行TTS生成的各种方法相关联的多个动作的示图的实施例。
[0020]图7例示了具有与用于从对应于用户的使用日志中获得第二自然语音数据集的方法相关联的多个动作的流程图的一个实施例。
[0021]图8例示了与用于标识从其获得输入文本的源的方法相关联的多个动作的流程图的一个实施例。
[0022]图9例示了用于授权或限制使用个性化话音来生成TTS语音数据的请求的多个动作的流程图的一个实施例。
[0023]图10例示了具有用于训练机器学习模型以便以个性化话音生成TTS语音数据并确认机器学习模型在其上训练的训练数据的多个动作的流程图的一个实施例。
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练被配置成以个性化话音生成语音数据的文本到语音(TTS)机器学习模型的计算机实现的方法,所述方法由包括至少一个硬件处理器的计算系统实现,并且所述方法包括:所述计算系统获得包括自然语音数据的第一训练数据集;所述计算系统标识特定用户简档;所述计算系统通过至少验证所述第一训练数据集对应于所述特定用户简档来验证对使用所述第一训练数据集来训练所述TTS机器学习模型的授权;以及所述计算系统用所述第一训练数据集来训练被配置成以所述个性化话音生成音频的所述TTS机器学习模型,以使得所述TTS机器学习模型被训练成以对应于所述特定用户简档的所述个性化话音生成音频。2.如权利要求1所述的方法,其中获得所述第一训练数据集进一步包括:获得通过用户朗读预设文本话语来记录的初始自然语音数据集;以及从对应于所述用户的使用日志获得第二自然语音数据集,所述第一训练数据集包括所述初始自然语音数据集和所述第二自然语音数据集。3.如权利要求2所述的方法,其中验证授权包括所述计算系统确认从其获得所述初始自然语音数据集的用户的身份以确保所述用户对应于所述特定用户简档。4.如权利要求2所述的方法,所述使用日志通过以下操作来汇编:对在预定时间量内从被所述用户授权收集并共享自然语音数据的一个或多个应用收集的自然语音数据进行聚集。5.如权利要求4所述的方法,进一步包括:所述计算系统标识所述使用日志中包括的一个或多个说话者;所述计算系统标识来自所述一个或多个说话者的特定说话者,所述特定说话者对应于所述特定用户简档;以及所述计算系统从所述特定说话者获得要被包括在所述第二自然语音数据集中的自然语音数据。6.如权利要求2所述的方法,进一步包括:在获得所述初始自然语音数据集和所述第二自然语音数据集后,所述计算系统验证所述自然语音数据满足或超过预定质量阈值;以及所述计算系统过滤所述自然语音数据以使得所述第一训练数据集只包括满足或超过所述预定质量阈值的自然语音数据。7.如权利要求6所述的方法,进一步包括:在确定所述初始自然语音数据集未满足或未超过所述预定质量阈值之际,所述计算系统生成对所述用户重新记录所述预设文本话语的请求。8.如权利要求1所述的方法,进一步包括:所述计算系统使用在所述第一训练数据集上训练的所述TTS机器学习模型来用所述TTS机器学习模型的所述个性化话音生成合成语音;所述计算系统获得包括由所述TTS机器学习模型生成的个性化合成语音的第二训练数据集;以及所述计算系统通过在所述第二训练数据集上训练所述TTS机器学习模型来完善所述
TTS机器学习模型。9.如权利要求1所述的方法,进一步包括:所述计算系统标识从其获得输入文本的源;所述计算系统将所述输入文本施加至所述TTS机器学习模型;以及所述计算系统基于所述输入文本来生成语音数据,所述语音数据由所述个性化话音来表征。10.如权利要求9所述的方法,所述输入文本是从由对应于所述个性化话音的用户创作的源获得的。11.如权利要求9所述的方法,所述输入文本是从由第三方创作的源获得的,其中对应于所述个性化话音的用户已授权将从由所述第三方创作的源获得的输入文本用于使用所述个性化话音来生成语音数据。12.如权利要求1所述的方法,进一步包括:在多个训练数据集上训练所述TTS机器学习模型,其中每一训练数据集对应于独特的个...

【专利技术属性】
技术研发人员:赵晟L
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1