【技术实现步骤摘要】
语音合成方法、声学模型的训练方法及装置
[0001]本申请涉及人工智能领域,尤其涉及一种语音合成方法、声学模型的训练方法及装置。
技术介绍
[0002]当前端到端的从文本到语音(Text To Speech,TTS)技术越来越流行,各类声学模型的出现更是将TTS技术带向了高潮。非自回归模型是较为常用的一种声学模型,其通过对语音的语音相关特征等进行学习,然后利用学习到的语音相关特征进行语音合成,因而学习到的语音相关特征的丰富程度和多样性会直接影响合成语音的质量。
[0003]基于此,如何使声学模型学习更丰富的语音相关特征以提高合成语音的质量,是当前亟需解决的技术问题。
技术实现思路
[0004]本申请实施例的目的是提供一种语音合成方法、声学模型的训练方法及装置,用于使声学模型学习更丰富的声学特征信息以提高合成语音的质量。
[0005]为实现上述目的,本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提供一种语音合成方法,包括:
[0007]基于待合成文本的音素序列 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:基于待合成文本的音素序列,得到所述待合成文本的音素特征向量;将所述待合成文本的音素特征向量输入声学模型,得到所述待合成文本对应的合成语音;其中,所述声学模型包括编码器和合成网络;所述编码器包括融合层和n级串联的子编码器,第一级子编码器用于对所述待合成文本的音素特征向量进行编码,得到对应的编码序列,除所述第一级子编码器之外的其余各级子编码器用于对所述音素特征向量和位于当前级子编码器之前的其余各级子编码器得到的编码序列进行编码,得到对应当前级子编码器的编码序列,所述融合层用于对所述音素特征向量和每级子编码器得到的编码序列进行融合处理,得到所述待合成文本的音素编码序列;所述合成网络用于根据目标可变声学特征和所述音素编码序列进行语音合成处理,得到所述待合成文本对应的合成语音,所述目标可变声学特征与所述待合成文本匹配。2.根据权利要求1所述的方法,其特征在于,所述融合层用于基于多头注意力机制,对所述音素特征向量和各级子编码器得到的编码序列进行融合处理,得到所述音素编码序列。3.根据权利要求1所述的方法,其特征在于,所述基于待合成文本的音素序列,得到所述待合成文本的音素特征向量,包括:通过特征提取网络对所述待合成文本的音素序列进行特征提取,得到所述待合成文本的音素特征向量。4.根据权利要求3所述的方法,其特征在于,所述特征提取网络包括嵌入层和第一卷积层;所述嵌入层用于对所述待合成文本的音素序列进行嵌入处理,得到所述音素序列的嵌入向量;所述第一卷积层用于基于所述音素序列中各音素的位置特征,对所述音素序列的嵌入向量进行卷积处理,得到所述音素序列的音素特征向量。5.根据权利要求1所述的方法,其特征在于,所述合成网络包括可变信息适应器、解码器和输出层;所述可变信息适应器用于基于所述音素编码序列进行可变声学特征预测,得到所述目标可变声学特征;所述解码器用于基于所述目标可变声学特征,对所述音素编码序列进行解码,得到所述第一合成频谱;所述输出层,用于基于所述第一合成频谱进行语音合成处理,得到所述待合成文本对应的合成语音。6.根据权利要求5所述的方法,其特征在于,所述合成网络还包括第二卷积层;所述第二卷积层用于对所述目标可变声学特征进行卷积处理;所述解码器用于基于卷积处理后的所述目标可变声学特征,对所述音素编码序列进行解码,得到所述第一合成频谱。7.根据权利要求1所述的方法,其特征在于,所述声学模型还包括第三卷积层,所述第三卷积层用于基于所述音素序列中各音...
【专利技术属性】
技术研发人员:刘鹏飞,王洪斌,刘敏,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。