一种语音合成方法和装置制造方法及图纸

技术编号:37551165 阅读:10 留言:0更新日期:2023-05-15 07:36
本申请提供了一种语音合成方法和装置,能够提升合成的语音的拟人化程度,使得合成的语音情感丰富。该方法包括:获取与训练文本对应的训练音频及标准的梅尔频谱;根据训练文本和训练音频,提取训练音频中每个音素的标准的语音特征;根据训练文本和训练音频,确定训练文本的情感标签序列,情感标签序列包含的数字表征训练文本中相应位置的文字是否用于表达情感;根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识,确定训练数据;基于训练数据训练语音合成模型,使得语音合成模型学习到每个音素的语音特征,以及每个文字的情感特征;根据目标文本和训练好的语音合成模型,确定目标文本对应的合成语音。对应的合成语音。对应的合成语音。

【技术实现步骤摘要】
一种语音合成方法和装置


[0001]本申请涉及自然语言处理
,尤其涉及一种语音合成方法和装置。

技术介绍

[0002]语音合成(Speech Synthesis),又称文语转换技术是指计算机通过分析将任意文本转化为流畅语音的技术。语音合成作为实现人机语音交互系统的核心技术之一,是语音处理技术中一个重要的方向,其应用价值越来越受到重视。
[0003]目前的语音合成技术中根据文本生成的语音,虽然在音色和音调上接近录音者,且流利通畅,但是让人听起来非常正式和官方,缺乏情感。而日常生活中人们进行交流的时候蕴含情感的表现例如,文本“嗯,我还没想好”,通常在说“嗯”的时候会发生拖音的现象,表示思索中、犹豫等情感。相似地,还有文本“呃,我想想”中的“呃”也会发生拖音的现象,表示思索中。又例如,“哦,我看好你呦”中的“哦”会发生音调变化的现象表示朋友间愉悦的情感。但是目前的语音合成技术无法合成体现情感的语音,导致生成的语音拟人化程度较低,缺乏情感。例如,目前的语音合成技术针对文本“嗯,我还没想好”中的“嗯”的读音只是普通的发音,没有体现出人的思索中、犹豫等情感。
[0004]因此,如何提升合成的语音的拟人化程度,使得合成的语音情感丰富成为亟待解决的问题。

技术实现思路

[0005]本申请提供了一种语音合成方法和装置,能够提升合成的语音的拟人化程度,使得合成的语音情感丰富。
[0006]第一方面,提供了一种语音合成方法,包括:
[0007]获取说话人根据训练文本录制的训练音频,以及训练音频对应的标准的梅尔频谱;
[0008]根据训练文本和训练音频,提取训练音频中每个音素的标准的语音特征,语音特征包括音长、音高和能量中的一种或多种;
[0009]根据训练文本和训练音频,确定训练文本的情感标签序列,情感标签序列包含与训练文本的文字数量相同的数字,每一数字表征训练文本中相应位置的文字是否用于表达情感;
[0010]根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识,确定训练数据;
[0011]基于训练数据训练语音合成模型,使得语音合成模型学习说话人录制的训练文本中每个音素的语音特征,以及每个文字的情感特征,根据语音合成模型预测的梅尔频谱与标准的梅尔频谱之间的误差计算损失,根据语音合成模型预测的每个音素的语音特征与对应的标准的语音特征计算损失,直到语音合成模型收敛,得到训练好的语音合成模型;
[0012]根据目标文本和训练好的语音合成模型,确定目标文本对应的合成语音。
[0013]在一个示例中,语音合成模型包括情感标签序列嵌入层、音素标识序列嵌入层、说话人标识嵌入层、编码层、拼接层、方差适配器和梅尔频谱解码器,其中,基于训练数据训练语音合成模型,包括:
[0014]向情感标签序列嵌入层输入情感标签序列,以获取情感标签序列的向量矩阵;
[0015]向音素标识序列嵌入层输入音素标识序列,以获取音素标识序列的向量矩阵;
[0016]向说话人标识嵌入层输入说话人的标识,以获取说话人的标识的向量矩阵;
[0017]使用编码层提取音素标识序列的向量矩阵的隐藏特征,以获取音素标识序列的特征向量矩阵;
[0018]使用拼接层将音素标识序列的特征向量矩阵和说话人的标识的向量矩阵,进行拼接处理,得到拼接向量矩阵;
[0019]使用方差适配器根据情感标签序列的向量矩阵和拼接向量矩阵,预测每个音素的语音特征和情感特征;
[0020]使用梅尔频谱解码器根据预测结果实现并行解码,预测训练音频的梅尔频谱。
[0021]在一个示例中,根据目标文本和训练好的语音合成模型,确定目标文本对应的合成语音,包括:
[0022]对目标文本进行预处理,以获取只包含文字的目标文本;
[0023]根据目标文本确定目标文本的情感标签序列;
[0024]获取目标文本对应的音素标识序列;
[0025]向语音合成模型输入目标文本的情感标签序列、目标文本对应的音素标识序列和说话人标识,以获取梅尔频谱解码器预测的目标文本的梅尔频谱;
[0026]使用声码器将目标文本的梅尔频谱映射为声音波形,以获取目标文本对应的合成语音。
[0027]在一个示例中,在根据目标文本确定目标文本的情感标签序列之前,方法还包括:
[0028]获取说话人录制训练音频时的至少一种呼吸音;
[0029]获取至少一种呼吸音中每一呼吸音的梅尔频谱;
[0030]对目标文本按照标点符号或者韵律进行分割处理,获取多个断句。
[0031]在一个示例中,根据目标文本确定目标文本的情感标签序列;获取目标文本对应的音素标识序列;向语音合成模型输入目标文本的情感标签序列、目标文本对应的音素标识序列和说话人标识,以获取梅尔频谱解码器预测的目标文本的梅尔频谱,使用声码器将目标文本的梅尔频谱映射为声音波形,以获取目标文本对应的合成语音,包括:
[0032]根据每一断句确定每一断句的情感标签序列;
[0033]获取每一断句对应的音素标识序列;
[0034]向语音合成模型输入每一断句的情感标签序列、每一断句对应的音素标识序列和说话人标识,以获取梅尔频谱解码器预测的每一断句的梅尔频谱;
[0035]将每一断句的梅尔频谱按照顺序进行拼接,并在两个断句的梅尔频谱之间插入第一呼吸音的梅尔频谱,以获取目标梅尔频谱,第一呼吸音属于至少一种呼吸音;
[0036]使用声码器将目标梅尔频谱映射为声音波形,以获取目标文本对应的合成语音,合成语音包含至少一种呼吸音中的呼吸音。
[0037]在一个示例中,根据每一断句确定每一断句的情感标签序列,包括:
[0038]基于训练文本和训练文本对应的情感标签序列,训练分类模型,使得分类模型学习训练文本中用于表达情感的关键文字的特征,以对文字进行分类的方式预测训练文本中每个文字是否用于表达情感;
[0039]向分类模型输入每一断句,获取分类模型输出的分类结果,分类结果即每一断句的情感标签序列。
[0040]在一个示例中,分类模型采用基于Transformer的双向编码器表示算法。
[0041]在一个示例中,用于表达情感的方式为说话人对文字进行拖音。
[0042]在一个示例中,根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识,确定训练数据,包括:
[0043]若情感标签序列包含表征说话人对文字进行拖音的数字,获取说话人根据训练文本录制的未拖音训练音频,未拖音训练音频中对进行拖音的数字对应的文字未进行拖音;
[0044]获取未拖音训练音频对应的标准的梅尔频谱;
[0045]根据训练文本和未拖音训练音频,提取未拖音训练音频中每个音素的标准的语音特征;
[0046]根据训练文本和未拖音训练音频,确定未拖音训练音频对应的情感标签序列;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取说话人根据训练文本录制的训练音频,以及所述训练音频对应的标准的梅尔频谱;根据所述训练文本和所述训练音频,提取所述训练音频中每个音素的标准的语音特征,所述语音特征包括音长、音高和能量中的一种或多种;根据所述训练文本和所述训练音频,确定所述训练文本的情感标签序列,所述情感标签序列包含与所述训练文本的文字数量相同的数字,每一数字表征所述训练文本中相应位置的文字是否用于表达情感;根据所述标准的梅尔频谱、所述标准的语音特征、所述情感标签序列、所述训练文本对应的音素标识序列和所述说话人的标识,确定训练数据;基于所述训练数据训练语音合成模型,使得所述语音合成模型学习所述说话人录制的所述训练文本中每个音素的语音特征,以及每个文字的情感特征,根据所述语音合成模型预测的梅尔频谱与所述标准的梅尔频谱之间的误差计算损失,根据所述语音合成模型预测的所述每个音素的语音特征与对应的所述标准的语音特征计算损失,直到所述语音合成模型收敛,得到训练好的所述语音合成模型;根据目标文本和训练好的所述语音合成模型,确定所述目标文本对应的合成语音。2.根据权利要求1所述的方法,其特征在于,所述语音合成模型包括情感标签序列嵌入层、音素标识序列嵌入层、说话人标识嵌入层、编码层、拼接层、方差适配器和梅尔频谱解码器,其中,基于所述训练数据训练语音合成模型,包括:向所述情感标签序列嵌入层输入所述情感标签序列,以获取所述情感标签序列的向量矩阵;向所述音素标识序列嵌入层输入所述音素标识序列,以获取所述音素标识序列的向量矩阵;向所述说话人标识嵌入层输入所述说话人的标识,以获取所述说话人的标识的向量矩阵;使用所述编码层提取所述音素标识序列的向量矩阵的隐藏特征,以获取所述音素标识序列的特征向量矩阵;使用所述拼接层将所述音素标识序列的特征向量矩阵和所述说话人的标识的向量矩阵,进行拼接处理,得到拼接向量矩阵;使用所述方差适配器根据所述情感标签序列的向量矩阵和所述拼接向量矩阵,预测所述每个音素的语音特征和情感特征;使用所述梅尔频谱解码器根据所述预测结果实现并行解码,预测所述训练音频的梅尔频谱。3.根据权利要求2所述的方法,其特征在于,所述根据目标文本和训练好的所述语音合成模型,确定所述目标文本对应的合成语音,包括:对所述目标文本进行预处理,以获取只包含文字的所述目标文本;根据所述目标文本确定所述目标文本的情感标签序列;获取所述目标文本对应的音素标识序列;向所述语音合成模型输入所述目标文本的情感标签序列、所述目标文本对应的音素标
识序列和所述说话人标识,以获取所述梅尔频谱解码器预测的所述目标文本的梅尔频谱;使用声码器将所述目标文本的梅尔频谱映射为声音波形,以获取所述目标文本对应的合成语音。4.根据权利要求3所述的方法,其特征在于,在所述根据所述目标文本确定所述目标文本的情感标签序列之前,所述方法还包括:获取所述说话人录制所述训练音频时的至少一种呼吸音;获取所述至少一种呼吸音中每一呼吸音的梅尔频谱;对所述目标文本按照标点符号或者韵律进行分割处理,获取多个断句。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标文本确定所述目标文本的情感标签序列;获取所述目标文本对应的音素标识序列;向所述语音合成模型输入所述目标文本的情感标签序列、所述目标文本对应的音素标识序列和所述说话人标识,以获取所述梅尔频谱解码器预测的所述目标文本的梅尔频谱,使用声码器将所述目标文本的梅尔频谱映射为声音波形,以获取所述目标文本对应的合成语音,包括:根据每一所述断句确定每一所述断句的情感标签序列;获取每一所述断句对应的音素标识序列;向所述语音合...

【专利技术属性】
技术研发人员:樊冯飞姚树杰赵言先永春
申请(专利权)人:鼎富新动力北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1