一种文本转语音的方法、装置及电子设备制造方法及图纸

技术编号：30226573 阅读：18 留言：0更新日期：2021-09-29 09:51

本发明专利技术提供了一种文本转语音的方法、装置及电子设备，其中，该方法包括：获取多个样本用户的样本文本和相应的样本音频，获取特定用户的特定文本和相应的特定音频；将用户标识一并作为输入进行训练以及微调训练，生成与特定用户对应的前端特定模型；将目标文本输入至前端特定模型，确定对应的声学特征，并根据声码器模型转换为音频信号。通过本发明专利技术实施例提供的文本转语音的方法、装置及电子设备，将用户标识一并作为输入，使得前端基线模型可以合成多个用户的语音，之后低资源自适应微调训练所得到前端特定模型也具有较好的合成效果，合成的音频与特定用户的音频具有较高的相似度。音频与特定用户的音频具有较高的相似度。音频与特定用户的音频具有较高的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本转语音的方法、装置及电子设备

[0001]本专利技术涉及语音转换
，具体而言，涉及一种文本转语音的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]TTS(Text To Speech，从文本到语音)系统用于将书面语言转换为人类语音。通常，TTS系统首先将文本转换为紧凑的音频表示，然后使用声码器的音频波形合成方法将这种表示转换为音频。TTS系统的一个目标是将文本转换为听起来像具有特定音频/说话者特性的音频。例如，将文本转换为明星等特定个体的音频。
[0003]为了能够基于特定个体的少量样本数据制作TTS系统，一般会通过大量样本创建基线模型，之后在基于特定个体的少量样本数据微调该基线模型。该方案虽然可以实现语音转换，但合成效果较差，其合成的音频与特定个体本身音频相似度较低。

技术实现思路

[0004]为解决现有存在的技术问题，本专利技术实施例提供一种文本转语音的方法、装置、电子设备及计算机可读存储介质。
[0005]第一方面，本专利技术实施例提供了一种文本转语音的方法，包括：
[0006]获取多个样本用户的样本文本和相应的样本音频，并提取所述样本音频的声学特征；获取特定用户的特定文本和相应的特定音频，并提取所述特定音频的声学特征；
[0007]将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，生成前端基线模型；
[0008]将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征...

【技术保护点】

【技术特征摘要】
1.一种文本转语音的方法，其特征在于，包括：获取多个样本用户的样本文本和相应的样本音频，并提取所述样本音频的声学特征；获取特定用户的特定文本和相应的特定音频，并提取所述特定音频的声学特征；将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，生成前端基线模型；将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签，对所述前端基线模型进行微调训练，生成与所述特定用户对应的前端特定模型；将待转换的目标文本输入至所述前端特定模型，确定所述目标文本对应的声学特征，并根据声码器模型将所述目标文本对应的声学特征转换为音频信号。2.根据权利要求1所述的方法，其特征在于，所述将所述样本文本和相应所述样本用户的用户标识作为输入包括：为所述样本文本中第一句子的句首和/或句尾增加特殊标识符，并在所述第一句子中相邻词之间设置空格标识符；将增加标识符的样本文本和相应所述样本用户的用户标识作为输入；所述将所述特定文本和所述特定用户的用户标识作为输入包括：为所述特定文本中第二句子的句首和/或句尾增加所述特殊标识符，并在所述第二句子中相邻词之间设置所述空格标识符；将增加标识符的特定文本和相应所述特定用户的用户标识作为输入；所述将待转换的目标文本输入至所述前端特定模型包括：为待转换的所述目标文本中第三句子的句首和/或句尾，以及所述第三句子中相邻词之间设置所述空格标识符；将设置所述空格标识符的目标文本输入至所述前端特定模型。3.根据权利要求1所述的方法，其特征在于，所述将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练，包括：将第一采样率的所述样本音频转换为与强制对齐工具相匹配的第二采样率的音频；根据所述强制对齐工具确定所述第二采样率的音频和所述样本文本的音素级别的第二采样率的对齐信息；将所述第二采样率的对齐信息模糊映射为第三采样率的对齐信息，所述第三采样率大于所述第二采样率；将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征和所述第三采样率的对齐信息作为标签进行训练；其中，所述声学特征包括Bark尺度频率倒谱系数。4.根据权利要求3所述的方法，其特征在于，所述强制对齐工具为蒙特利尔强制对齐工具，且所述根据所述强制对齐工具确定所述第二采样率的音频和所述样本文本的音素级别的第二采样率的对齐信息包括：获取训练文本和相应的训练音频，所述训练文本包括所述蒙特利尔强制对齐工具的词典；确定所述训练文本中每个第一单词的音素序列，将所述第一单词的音素序列中的字符串拼接得到的音素串替换所述第一单词；根据替换后的所述训练文本和所述训练音频进行训练，生成蒙特利尔强制对齐工具；
确定所述样本文本中每个第二单词的音素序列，将所述第二单词的音素序列中的字符串拼接得到的音素串替换所述第二单词；将替换后的所述样本文本和所述第二采样率的音频输入至所述蒙特利尔强制对齐工具，确定音素级别的第二采样率的对齐信息。5.根据权利要求1所述的方法，其特征在于，所述将所述特定文本和所述特定用户的用户标...

【专利技术属性】
技术研发人员：衷奕，王旭，饶丰，
申请(专利权)人：北京一起教育科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人