【技术实现步骤摘要】
【国外来华专利技术】文本到语音模型和个性化模型生成的话音的受控训练和使用
技术介绍
[0001]文本到语音(TTS)模型是被配置成将任意文本转换成听起来是人类的语音数据的模型。有时被称为话音字体的TTS模型通常包括前端模块、声学模型和声码器。前端模块被配置成完成文本归一化(例如,将单位符号转换成可读单词)并且通常将文本转换成对应的音素序列。声学模型被配置成将输入的文本(或经转换的音素)转换成频谱序列,而声码器被配置成将频谱序列转换成语音波形数据。此外,声学模型决定文本将如何被发音(例如,以什么话音)。
[0002]源声学模型被配置为在多说话者数据上进行训练的多说话者模型。在一些情形中,使用目标说话者数据对源声学模型进一步完善或适配。通常,声学模型是依赖于说话者的,这意味着声学模型是直接在来自特定目标说话者的说话者数据上被训练的,或者通过使用来自特定目标说话者的说话者数据来完善源声学模型。
[0003]在经过良好训练的情况下,该模型能够将任何文本转换成接近地模仿目标说话者如何说话的语音,即,以相同的话音音色和类似的韵律。用于TTS模型的训练数据通常包括在特定目标说话者说话的同时对该特定说话者进行录音所获得的音频数据以及对应于该音频数据的文本集(即,目标说话者为了产生该音频数据所说的内容的文本表示)。
[0004]在一些实例中,用于训练TTS模型的文本由语音识别模型和/或自然语言理解模型生成,该语音识别模型和/或自然语言理解模型被具体地配置成识别和解读语音并且提供在音频数据中被识别出的单词的文本表示。在其他实例中,说话者被给予要大声朗读的预定
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于训练被配置成以个性化话音生成语音数据的文本到语音(TTS)机器学习模型的计算机实现的方法,所述方法由包括至少一个硬件处理器的计算系统实现,并且所述方法包括:所述计算系统获得包括自然语音数据的第一训练数据集;所述计算系统标识特定用户简档;所述计算系统通过至少验证所述第一训练数据集对应于所述特定用户简档来验证对使用所述第一训练数据集来训练所述TTS机器学习模型的授权;以及所述计算系统用所述第一训练数据集来训练被配置成以所述个性化话音生成音频的所述TTS机器学习模型,以使得所述TTS机器学习模型被训练成以对应于所述特定用户简档的所述个性化话音生成音频。2.如权利要求1所述的方法,其中获得所述第一训练数据集进一步包括:获得通过用户朗读预设文本话语来记录的初始自然语音数据集;以及从对应于所述用户的使用日志获得第二自然语音数据集,所述第一训练数据集包括所述初始自然语音数据集和所述第二自然语音数据集。3.如权利要求2所述的方法,其中验证授权包括所述计算系统确认从其获得所述初始自然语音数据集的用户的身份以确保所述用户对应于所述特定用户简档。4.如权利要求2所述的方法,所述使用日志通过以下操作来汇编:对在预定时间量内从被所述用户授权收集并共享自然语音数据的一个或多个应用收集的自然语音数据进行聚集。5.如权利要求4所述的方法,进一步包括:所述计算系统标识所述使用日志中包括的一个或多个说话者;所述计算系统标识来自所述一个或多个说话者的特定说话者,所述特定说话者对应于所述特定用户简档;以及所述计算系统从所述特定说话者获得要被包括在所述第二自然语音数据集中的自然语音数据。6.如权利要求2所述的方法,进一步包括:在获得所述初始自然语音数据集和所述第二自然语音数据集后,所述计算系统验证所述自然语音数据满足或超过预定质量阈值;以及所述计算系统过滤所述自然语音数据以使得所述第一训练数据集只包括满足或超过所述预定质量阈值的自然语音数据。7.如权利要求6所述的方法,进一步包括:在确定所述初始自然语音数据集未满足或未超过所述预定质量阈值之际,所述计算系统生成对所述用户重新记录所述预设文本话语的请求。8.如权利要求1所述的方法,进一步包括:所述计算系统使用在所述第一训练数据集上训练的所述TTS机器学习模型来用所述TTS机器学习模型的所述个性化话音生成合成语音;所述计算系统获得包括由所述TTS机器学习模型生成的个性化合成语音的第二训练数据集;以及所述计算系统通过在所述第二训练数据集上训练所述TTS机器学习模型来完善所述
TTS机器学习模型。9.如权利要求1所述的方法,进一步包括:所述计算系统标识从其获得输入文本的源;所述计算系统将所述输入文本施加至所述TTS机器学习模型;以及所述计算系统基于所述输入文本来生成语音数据,所述语音数据由所述个性化话音来表征。10.如权利要求9所述的方法,所述输入文本是从由对应于所述个性化话音的用户创作的源获得的。11.如权利要求9所述的方法,所述输入文本是从由第三方创作的源获得的,其中对应于所述个性化话音的用户已授权将从由所述第三方创作的源获得的输入文本用于使用所述个性化话音来生成语音数据。12.如权利要求1所述的方法,进一步包括:在多个训练数据集上训练所述TTS机器学习模型,其中每一训练数据集对应于独特的个...
【专利技术属性】
技术研发人员:赵晟,L,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。