一种基于自适应注意力机制的语音合成方法和系统技术方案

技术编号:37411630 阅读:18 留言:0更新日期:2023-04-30 09:36
本发明专利技术涉及语音合成技术领域,具体公开了一种基于自适应注意力机制的语音合成方法和系统,包括获取具有文本标注及说话人标签的中文语音数据;对中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、帧级别音高、帧级别能量以及音节边界;构建语音合成模型,将音节边界、音素序列、帧级别音高、帧级别能量和说话人标签输入语音合成模型,从而获得预测值;基于帧级别梅尔频谱、音素级别时长、帧级别音高和帧级别能量,以及所述预测值训练语音合成模型,以获得定制化语音合成模型;基于定制化语音合成模型合成未知说话人语音;该方法能更加快速的适应说话人音色,达到显著提高生成的说话人语音的效果。的效果。的效果。

【技术实现步骤摘要】
一种基于自适应注意力机制的语音合成方法和系统


[0001]本专利技术涉及语音合成
,具体涉及一种基于自适应注意力机制的语音合成方法和系统。

技术介绍

[0002]在现有的语音合成方法中,生成的语音质量受到了训练数据的限制,采用少量数据很难生成高相似度、高自然度的语音,并且模型存在过拟合风险;因此在训练语音合成系统时,往往会应用到大量的语音数据;目前,多人的语音合成模型已经可以很好的拟合多个说话人的音色,并且可以通过控制文本输入来合成自己想要的输出结果,然而适应性语音合成仍然是一个非常具有挑战性的任务,如何用更少的数据,生成更加逼真和相似的语音是研究的重点。
[0003]现有的适应性语音合成方法有两个主要方向:
[0004]第一:例如UNET

TTS通过优化模型结构更好的捕获说话人音色,并且在真正合成时只提取说话人音色而不去优化模型参数(zero

shot),但其存在合成的说话人的语音质量和语音相似度并不好的缺陷;
[0005]第二:例如AdaSpeech模型通过少量的未知说话人语音样本,对模型进行微小调整,从而生成更高质量和相似度的未知说话人语音(few

shot or one

shot),合成的语音质量和说话人相似度更高,但其在微调时,并未考虑不同说话人的音高和能量不同,存在合成的语音效果不高的缺陷。

技术实现思路

[0006]针对上述问题,本专利技术的一个目的是提供一种基于自适应注意力机制的语音合成方法,该方法采用少量未知说话人的语音数据,通过微小变化语音合成模型的参数来合成未知说话人声音,具体包括以说话人高维特征作为条件去控制语音合成模型的注意力机制和诸如音高、时长等的预测模块的权重,从而达到更加快速的适应说话人音色,显著提高生成的说话人语音的效果。
[0007]本专利技术的第二个目的是提供一种基于自适应注意力机制的语音合成系统。
[0008]本专利技术所采用的第一个技术方案是:一种基于自适应注意力机制的语音合成方法,包括以下步骤:
[0009]S100:获取具有文本标注及说话人标签的中文语音数据;对所述中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、帧级别音高、帧级别能量以及音节边界;
[0010]S200:构建语音合成模型,将所述音节边界、音素序列、帧级别音高、帧级别能量和说话人标签输入语音合成模型,从而获得预测梅尔频谱、预测音素级别时长、预测能量和预测音高;
[0011]S300:基于所述帧级别梅尔频谱、音素级别时长、帧级别音高和帧级别能量,以及
所述预测梅尔频谱、预测音素级别时长、预测能量和预测音高训练语音合成模型,以获得定制化语音合成模型;
[0012]S400:获取未知说话人的文本,将未知说话人的文本输入所述定制化语音合成模型,以获得未知说话人的预测梅尔频谱;基于所述未知说话人的预测梅尔频谱合成未知说话人语音。
[0013]优选地,所述步骤S100中的预处理包括以下子步骤:
[0014]S110:将所述文本数据转换为音素序列;
[0015]S120:将所述音素序列和对应的中文语音数据送入对齐模型,从而获得音素级别时长;
[0016]S130:通过预设字典生成每个文本数据对应的各个音节边界;
[0017]S140:对所述中文语音数据进行音高的预测,获得帧级别音高;
[0018]S150:将中文语音数据的语音波形通过短时傅立叶变换以及梅尔频谱转换,以生成帧级别梅尔频谱以及帧级别能量。
[0019]优选地,所述步骤S200中的语音合成模型包括说话人特征表、音素特征表、自适应编码器、自适应预测器组和自适应解码器;
[0020]所述自适应编码器包括音素编码器、音节编码器、时长预测器、长度规整器、音节生成器以及自适应交叉注意力模块;
[0021]所述自适应预测器组包括自适应音高预测器和自适应能量预测器。
[0022]优选地,所述步骤S200中通过以下子步骤获得预测梅尔频谱、预测音素级别时长、预测能量和预测音高:
[0023]S210:基于所述音素序列查询音素特征表,从而生成初始音素特征;以及基于说话人标签查询说话人特征表,从而生成说话人特征;
[0024]S220:将所述初始音素特征、说话人特征和音节边界输入自适应编码器,从而获得预测音素级别时长和帧级别第二隐藏特征;
[0025]S230:将所述帧级别第二隐藏特征、说话人特征以及帧级别音高和帧级别能量输入自适应预测器组,从而生成预测能量、预测音高以及帧级别第三隐藏特征;
[0026]S240:将所述帧级别第三隐藏特征和说话人特征输入自适应解码器,从而得到预测梅尔频谱。
[0027]优选地,所述步骤S220包括:
[0028]1)将所述初始音素特征输入音素编码器,以生成音素级第一隐藏特征;
[0029]2)将所述音素级第一隐藏特征和音节边界输入音节生成器,以生成音节初步特征;
[0030]3)将所述音节初步特征输入音节编码器进行编码,从而获得音节级第一隐藏特征;
[0031]4)将所述音素级第一隐藏特征和音节边界输入时长预测器,从而得到预测音素级别时长,并对所述预测音素级别时长求和,从而输出音节级别时长;
[0032]5)基于所述音节级别时长将所述音节级第一隐藏特征通过长度规整器扩充为帧级别第一隐藏特征;
[0033]6)将所述帧级别第一隐藏特征和音节级第一隐藏特征作为参数、说话人特征作为
条件输入自适应交叉注意力模块,从而获得帧级别第二隐藏特征。
[0034]优选地,所述步骤S230包括:
[0035]将所述帧级别第二隐藏特征和说话人特征均分别输入自适应能量预测器和自适应音高预测器,从而输出预测能量和预测音高;
[0036]将所述帧级别音高和帧级别能量加入所述帧级别第二隐藏特征中,从而生成帧级别第三隐藏特征。
[0037]优选地,所述步骤S300包括以下子步骤:
[0038]S310:将所述预测梅尔频谱、预测音素级别时长、预测能量和音高以及帧级别梅尔频谱、音素级别时长、帧级别音高、帧级别能量,通过损失函数计算损失,对所述语音合成模型进行预训练直至收敛;
[0039]S320:对预训练好的语音合成模型进行微调训练,以获得定制化语音合成模型。
[0040]优选地,所述步骤S310中的损失函数通过以下公式表示:
[0041]Loss
Adaptor
=λ
p
*Loss
P

e
*Loss
E

d
*Loss
D
[0042]Loss=Loss
Adaptor
+Loss
Mel
[0043]式中,Loss本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应注意力机制的语音合成方法,其特征在于,包括以下步骤:S100:获取具有文本标注及说话人标签的中文语音数据;对所述中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、帧级别音高、帧级别能量以及音节边界;S200:构建语音合成模型,将所述音节边界、音素序列、帧级别音高、帧级别能量和说话人标签输入语音合成模型,从而获得预测梅尔频谱、预测音素级别时长、预测能量和预测音高;S300:基于所述帧级别梅尔频谱、音素级别时长、帧级别音高和帧级别能量,以及所述预测梅尔频谱、预测音素级别时长、预测能量和预测音高训练语音合成模型,以获得定制化语音合成模型;S400:获取未知说话人的文本,将未知说话人的文本输入所述定制化语音合成模型,以获得未知说话人的预测梅尔频谱;基于所述未知说话人的预测梅尔频谱合成未知说话人语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述步骤S100中的预处理包括以下子步骤:S110:将所述文本数据转换为音素序列;S120:将所述音素序列和对应的中文语音数据送入对齐模型,从而获得音素级别时长;S130:通过预设字典生成每个文本数据对应的各个音节边界;S140:对所述中文语音数据进行音高的预测,获得帧级别音高;S150:将中文语音数据的语音波形通过短时傅立叶变换以及梅尔频谱转换,以生成帧级别梅尔频谱以及帧级别能量。3.根据权利要求1所述的语音合成方法,其特征在于,所述步骤S200中的语音合成模型包括说话人特征表、音素特征表、自适应编码器、自适应预测器组和自适应解码器;所述自适应编码器包括音素编码器、音节编码器、时长预测器、长度规整器、音节生成器以及自适应交叉注意力模块;所述自适应预测器组包括自适应音高预测器和自适应能量预测器。4.根据权利要求3所述的语音合成方法,其特征在于,所述步骤S200中通过以下子步骤获得预测梅尔频谱、预测音素级别时长、预测能量和预测音高:S210:基于所述音素序列查询音素特征表,从而生成初始音素特征;以及基于说话人标签查询说话人特征表,从而生成说话人特征;S220:将所述初始音素特征、说话人特征和音节边界输入自适应编码器,从而获得预测音素级别时长和帧级别第二隐藏特征;S230:将所述帧级别第二隐藏特征、说话人特征以及帧级别音高和帧级别能量输入自适应预测器组,从而生成预测能量、预测音高以及帧级别第三隐藏特征;S240:将所述帧级别第三隐藏特征和说话人特征输入自适应解码器,从而得到预测梅尔频谱。5.根据权利要求4所述的语音合成方法,其特征在于,所述步骤S220包括:1)将所述初始音素特征输入音素编码器,以生成音素级第一隐藏特征;2)将所述音素级第一隐藏特征和音节边界输入音节生成器,以生成音节初步特征;
3)将所述音节初步特征输入音节编码器进行编码,从而获得音节级第一隐藏特征;4)将所述音素级第一隐藏特征和音节边界输入时长预测器,从而得到预测音素级别时长,并对所述预测音素级别时长求和,从而输出音节级别时长;5)基于所述音节级别时长将所述音节级第一隐藏特征通过长度规整器扩充为帧级别第一隐藏特征;6)将所述帧级别第一隐藏特征和音节级第一隐藏特征作为参数、说话人特征作为条件输入自适应交叉注意力模块,从而获得帧级别第二隐藏特征...

【专利技术属性】
技术研发人员:柯登峰胡睿欣姚文翰罗琪舒文涛王运峰
申请(专利权)人:澳克多普有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1