一种文本转语音的方法、装置及电子设备制造方法及图纸

技术编号:30226573 阅读:18 留言:0更新日期:2021-09-29 09:51
本发明专利技术提供了一种文本转语音的方法、装置及电子设备,其中,该方法包括:获取多个样本用户的样本文本和相应的样本音频,获取特定用户的特定文本和相应的特定音频;将用户标识一并作为输入进行训练以及微调训练,生成与特定用户对应的前端特定模型;将目标文本输入至前端特定模型,确定对应的声学特征,并根据声码器模型转换为音频信号。通过本发明专利技术实施例提供的文本转语音的方法、装置及电子设备,将用户标识一并作为输入,使得前端基线模型可以合成多个用户的语音,之后低资源自适应微调训练所得到前端特定模型也具有较好的合成效果,合成的音频与特定用户的音频具有较高的相似度。音频与特定用户的音频具有较高的相似度。音频与特定用户的音频具有较高的相似度。

【技术实现步骤摘要】
一种文本转语音的方法、装置及电子设备


[0001]本专利技术涉及语音转换
,具体而言,涉及一种文本转语音的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]TTS(Text To Speech,从文本到语音)系统用于将书面语言转换为人类语音。通常,TTS系统首先将文本转换为紧凑的音频表示,然后使用声码器的音频波形合成方法将这种表示转换为音频。TTS系统的一个目标是将文本转换为听起来像具有特定音频/说话者特性的音频。例如,将文本转换为明星等特定个体的音频。
[0003]为了能够基于特定个体的少量样本数据制作TTS系统,一般会通过大量样本创建基线模型,之后在基于特定个体的少量样本数据微调该基线模型。该方案虽然可以实现语音转换,但合成效果较差,其合成的音频与特定个体本身音频相似度较低。

技术实现思路

[0004]为解决现有存在的技术问题,本专利技术实施例提供一种文本转语音的方法、装置、电子设备及计算机可读存储介质。
[0005]第一方面,本专利技术实施例提供了一种文本转语音的方法,包括:
[0006]获取多个样本用户的样本文本和相应的样本音频,并提取所述样本音频的声学特征;获取特定用户的特定文本和相应的特定音频,并提取所述特定音频的声学特征;
[0007]将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练,生成前端基线模型;
[0008]将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签,对所述前端基线模型进行微调训练,生成与所述特定用户对应的前端特定模型;
[0009]将待转换的目标文本输入至所述前端特定模型,确定所述目标文本对应的声学特征,并根据声码器模型将所述目标文本对应的声学特征转换为音频信号。
[0010]第二方面,本专利技术实施例还提供了一种文本转语音的装置,包括:
[0011]获取模块,用于获取多个样本用户的样本文本和相应的样本音频,并提取所述样本音频的声学特征;获取特定用户的特定文本和相应的特定音频,并提取所述特定音频的声学特征;
[0012]基线训练模块,用于将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练,生成前端基线模型;
[0013]微调训练模块,用于将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签,对所述前端基线模型进行微调训练,生成与所述特定用户对应的前端特定模型;
[0014]转换模块,用于将待转换的目标文本输入至所述前端特定模型,确定所述目标文本对应的声学特征,并根据声码器模型将所述目标文本对应的声学特征转换为音频信号。
[0015]第三方面,本专利技术实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述的文本转语音的方法中的步骤。
[0016]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的文本转语音的方法中的步骤。
[0017]本专利技术实施例提供的文本转语音的方法、装置、电子设备及计算机可读存储介质,在训练前端基线模型以及微调时,将用户标识一并作为输入,使得训练后的前端基线模型可以适用于合成多个用户的语音,且在之后微调时使用少量的特定音频即可实现自适应训练。将用户标识一并作为输入,使得前端基线模型可以合成多个用户的语音,之后低资源自适应微调训练所得到前端特定模型也具有较好的合成效果,合成的音频与特定用户的音频具有较高的相似度;并且,上述训练方式同时提高了前端基线模型的稳定性,使得前端基线模型具有发音纠错功能,即使特定用户的音频数据发音不够标准,也可自动进行纠正,使得合成语音在保持特定用户音色和韵律的情况下,发音也会更加标准。
附图说明
[0018]为了更清楚地说明本专利技术实施例或
技术介绍
中的技术方案,下面将对本专利技术实施例或
技术介绍
中所需要使用的附图进行说明。
[0019]图1示出了本专利技术实施例所提供的一种文本转语音的方法的流程图;
[0020]图2示出了本专利技术实施例所提供的文本转语音的方法中,前端模型的一种结构图;
[0021]图3示出了本专利技术实施例所提供的一种文本转语音的装置的结构示意图;
[0022]图4示出了本专利技术实施例所提供的一种用于执行文本转语音的方法的电子设备的结构示意图。
具体实施方式
[0023]下面结合本专利技术实施例中的附图对本专利技术实施例进行描述。
[0024]本专利技术实施例提供的一种文本转语音的方法,在训练前端基线模型时,将用户标识一并作为输入,使得训练后的前端基线模型可以适用于合成多个用户的语音,使得后续微调时使用少量的特定数据即可自适应训练。图1示出了本专利技术实施例所提供的一种文本转语音的方法的流程图。如图1所示,该方法包括:
[0025]步骤101:获取多个样本用户的样本文本和相应的样本音频,并提取样本音频的声学特征;获取特定用户的特定文本和相应的特定音频,并提取特定音频的声学特征。
[0026]与传统方式类似,本专利技术实施例首先基于大量的样本文本和样本音频训练前端基线模型,之后再基于特定用户少量的特定文本和特定音频微调(finetune)该前端基线模型,从而可以得到适用于该特定用户的模型,即前端特定模型;其中,样本音频的数量或时长大于特定音频的数量或时长。此外,在本专利技术实施例中,将样本文本对应的样本用户也作为输入的特征进行训练。
[0027]具体地,本专利技术实施例中,用于训练的样本音频来自于相应的用户,即样本用户,
故该样本音频对应有样本用户的用户标识。并且,样本音频和相应的样本文本是一种音频文本对(或文本音频对),故该样本文本也对应有相应样本用户的用户标识。例如,采集到样本用户 A发出的音频“hello”,该音频对应的文本是“hello”,则此时样本文本“hello”的用户标签即为样本用户A的用户标签。同理,与特定音频对应的特定文本也具有相应的用户标识,即特定用户的用户标识。
[0028]并且,本专利技术实施例提取出音频中的声学特征,如样本音频的声学特征、特定音频的声学特征,以使得声码器模型基于该声学特征可以转换成相应的音频信号。该声学特征是用于表征音频的特征,一般采用梅尔语谱图(mel spectrogram)作为声学特征;可选地,本专利技术实施例中将梅尔语谱图改为Bark尺度频率倒谱系数(Bark

scaleFrequency Cepstral Coefficients,BFCC),以适应推理速度较快的声码器模型,例如LPCNet(Linear Predictive Coding Net,线性预测编码网络)声码器。其中,可采用现有的成熟技术提取出音频中的BFCC等声学特征,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本转语音的方法,其特征在于,包括:获取多个样本用户的样本文本和相应的样本音频,并提取所述样本音频的声学特征;获取特定用户的特定文本和相应的特定音频,并提取所述特定音频的声学特征;将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练,生成前端基线模型;将所述特定文本和所述特定用户的用户标识作为输入、所述特定音频的声学特征作为标签,对所述前端基线模型进行微调训练,生成与所述特定用户对应的前端特定模型;将待转换的目标文本输入至所述前端特定模型,确定所述目标文本对应的声学特征,并根据声码器模型将所述目标文本对应的声学特征转换为音频信号。2.根据权利要求1所述的方法,其特征在于,所述将所述样本文本和相应所述样本用户的用户标识作为输入包括:为所述样本文本中第一句子的句首和/或句尾增加特殊标识符,并在所述第一句子中相邻词之间设置空格标识符;将增加标识符的样本文本和相应所述样本用户的用户标识作为输入;所述将所述特定文本和所述特定用户的用户标识作为输入包括:为所述特定文本中第二句子的句首和/或句尾增加所述特殊标识符,并在所述第二句子中相邻词之间设置所述空格标识符;将增加标识符的特定文本和相应所述特定用户的用户标识作为输入;所述将待转换的目标文本输入至所述前端特定模型包括:为待转换的所述目标文本中第三句子的句首和/或句尾,以及所述第三句子中相邻词之间设置所述空格标识符;将设置所述空格标识符的目标文本输入至所述前端特定模型。3.根据权利要求1所述的方法,其特征在于,所述将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征作为标签进行训练,包括:将第一采样率的所述样本音频转换为与强制对齐工具相匹配的第二采样率的音频;根据所述强制对齐工具确定所述第二采样率的音频和所述样本文本的音素级别的第二采样率的对齐信息;将所述第二采样率的对齐信息模糊映射为第三采样率的对齐信息,所述第三采样率大于所述第二采样率;将所述样本文本和相应所述样本用户的用户标识作为输入、所述样本音频的声学特征和所述第三采样率的对齐信息作为标签进行训练;其中,所述声学特征包括Bark尺度频率倒谱系数。4.根据权利要求3所述的方法,其特征在于,所述强制对齐工具为蒙特利尔强制对齐工具,且所述根据所述强制对齐工具确定所述第二采样率的音频和所述样本文本的音素级别的第二采样率的对齐信息包括:获取训练文本和相应的训练音频,所述训练文本包括所述蒙特利尔强制对齐工具的词典;确定所述训练文本中每个第一单词的音素序列,将所述第一单词的音素序列中的字符串拼接得到的音素串替换所述第一单词;根据替换后的所述训练文本和所述训练音频进行训练,生成蒙特利尔强制对齐工具;
确定所述样本文本中每个第二单词的音素序列,将所述第二单词的音素序列中的字符串拼接得到的音素串替换所述第二单词;将替换后的所述样本文本和所述第二采样率的音频输入至所述蒙特利尔强制对齐工具,确定音素级别的第二采样率的对齐信息。5.根据权利要求1所述的方法,其特征在于,所述将所述特定文本和所述特定用户的用户标...

【专利技术属性】
技术研发人员:衷奕王旭饶丰
申请(专利权)人:北京一起教育科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1