基于韵律发音解耦的元学习多语种语音合成模型及方法技术

技术编号:37117689 阅读:26 留言:0更新日期:2023-04-01 05:12
本发明专利技术公开一种基于韵律发音解耦的元学习多语种语音合成模型及方法,属语音合成领域,该模型包括:由发音编码器、发音流参数生成器和发音解码器组成的发音流声学子模型;由韵律编码器、韵律流参数生成器和韵律解码器组成的韵律流声学子模型;预处理网络的输入前一帧的声学特征,输出连接注意力模块;注意力模块能将输入的发音编码器的输出和韵律编码器的输出拼接后形成上下文向量,并分别输出至发音解码器和韵律解码器,发音解码器能根据输入的上下文发音向量预测输出梅尔倒谱和停止标志;韵律解码器能根据输入的上下文韵律向量预测输出能量、基频和清浊音标志。该模型及方法,能对发音和韵律分别建模,有效提高多语言语音合成的可懂度和自然度。成的可懂度和自然度。成的可懂度和自然度。

【技术实现步骤摘要】
for Multilingual Text

to

Speech,”Proc.Interspeech 2020,pp.2972

2976,2020.
[0010][5]M.Chen,M.Chen,S.Liang,J.Ma,L.Chen,S.Wang,and J.Xiao,“Cross

lingual,multi

speaker text

to

speech synthesis using neural speaker embedding.”in Interspeech,2019,pp.2105

2109.
[0011][6]Y.Cao,X.Wu,S.Liu,J.Yu,X.Li,Z.Wu,X.Liu,and H.Meng,“End

to

end code

switched TTS with mix of monolingual record

ings,”in ICASSP 2019

2019IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019,pp.6935

6939.
[0012][7]R.Liu,X.Wen,C.Lu,and X.Chen,“Tone learning in Low

Resource Bilingual TTS.”in INTERSPEECH,2020,pp.2952

2956.
[0013][8]H.Zhan,H.Zhang,W.Ou,and Y.Lin,“Improve Cross

Lingual Text

To

Speech Synthesis on Monolingual Corpora with Pitch Contour Information,”Proc.Interspeech 2021,pp.1599

1603,2021.
[0014][9]H.Tachibana,K.Uenoyama,and S.Aihara,“Efficiently trainable text

to

speech system based on deep convolutional networks with guided attention,”in 2018IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2018,pp.4784

4788.
[0015][10]J.Shen,R.Pang,R.J.Weiss,M.Schuster,N.Jaitly,Z.Yang,Z.Chen,Y.Zhang,Y.Wang,R.Skerrv

Ryan et al.,“Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions,”in 2018IEEE international conference on acoustics,speech and signal processing(ICASSP).IEEE,2018,pp.4779

4783.

技术实现思路

[0016]本专利技术的目的是提供了一种基于韵律发音解耦的元学习多语种语音合成模型及方法,能对发音和韵律分别建模,有效提高多语言语音合成的可懂度和自然度,进而解决现有技术中存在的上述技术问题。
[0017]本专利技术的目的是通过以下技术方案实现的:
[0018]发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,
[0019]发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,
[0020]所述发音流声学子模型包括:发音流参数生成器、发音编码器和发音解码器;
[0021]所述发音流参数生成器设有接收语种ID的语种ID输入端,该发音流参数生成器的发音流参数输出端与所述发音编码器的发音流参数输入端相连;
[0022]所述发音编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该发音编码器的发音编码输出端连接所述注意力模块的拼接输入端;
[0023]所述韵律流声学子模型包括:韵律流参数生成器、韵律编码器和韵律解码器;
[0024]所述韵律流参数生成器设有接收语种ID的语种ID输入端,该韵律流参数生成器的韵律流参数输出端与所述韵律编码器的韵律流参数输入端相连;
[0025]所述韵律编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该韵律编码器的韵律编码输出端连接所述注意力模块的拼接输入端;
[0026]所述预处理网络的输入端,用于以自回归方式接收前一帧的梅尔倒谱、基频和能量,该预处理网络的输出端连接所述注意力模块;
[0027]所述注意力模块,能将由所述发音编码器输入的发音编码特征和所述韵律编码器输入的韵律编码特征拼接后,从预处理网络的输出、前一帧的上下文向量和拼接后的编码器输出中预测当前帧的上下文向量,再将当前帧的上下文向量根据所述发音编码器的输出维度和所述韵律编码器的输出维度拆分为上下文发音向量和上下文韵律向量;
[0028]所述注意力模块分别设有连接所述发音流声学子模型的发音解码器的上下文发音向量输出端和连接所述韵律流声学子模型的韵律解码器的上下文韵律向量输出端,能将拆分得出的上下文发音向量输出至所述发音解码器以及将拆分得出的上下文韵律向量输出至所述韵律解码器;
[0029]所述梯度反转层的输入端与所述注意力模块的发音韵律编码拼接输出端相连,该梯度反转层的输出端连接所述说话人分类器,该梯度反转层能反转说话人分类器在训练时回传的梯度,通过对抗训练的方式去除所述发音编码器和所述韵律编码器输出中的残余说话人信息;
[0030]所述说话人分类器模块用于在训练过程中,从所述发音编码器和所述韵律编码器拼接后的输出中预测说话人身份;
[0031]所述发音解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文发音向量预测输出梅尔倒谱和停止标志;
[0032]所述韵律解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文韵律向量预测输出能量、基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,包括:发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,所述发音流声学子模型包括:发音流参数生成器、发音编码器和发音解码器;所述发音流参数生成器设有接收语种ID的语种ID输入端,该发音流参数生成器的发音流参数输出端与所述发音编码器的发音流参数输入端相连;所述发音编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该发音编码器的发音编码输出端连接所述注意力模块的拼接输入端;所述韵律流声学子模型包括:韵律流参数生成器、韵律编码器和韵律解码器;所述韵律流参数生成器设有接收语种ID的语种ID输入端,该韵律流参数生成器的韵律流参数输出端与所述韵律编码器的韵律流参数输入端相连;所述韵律编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该韵律编码器的韵律编码输出端连接所述注意力模块的拼接输入端;所述预处理网络的输入端,用于以自回归方式接收前一帧的梅尔倒谱、基频和能量,该预处理网络的输出端连接所述注意力模块;所述注意力模块,能将由所述发音编码器输入的发音编码特征和所述韵律编码器输入的韵律编码特征拼接后,从预处理网络的输出、前一帧的上下文向量和拼接后的编码器输出中预测当前帧的上下文向量,再将当前帧的上下文向量根据所述发音编码器的输出维度和所述韵律编码器的输出维度拆分为上下文发音向量和上下文韵律向量;所述注意力模块分别设有连接所述发音流声学子模型的发音解码器的上下文发音向量输出端和连接所述韵律流声学子模型的韵律解码器的上下文韵律向量输出端,能将拆分得出的上下文发音向量输出至所述发音解码器以及将拆分得出的上下文韵律向量输出至所述韵律解码器;所述梯度反转层的输入端与所述注意力模块的发音韵律编码拼接输出端相连,该梯度反转层的输出端连接所述说话人分类器,该梯度反转层能反转说话人分类器在训练时回传的梯度,通过对抗训练的方式去除所述发音编码器和所述韵律编码器输出中的残余说话人信息;所述说话人分类器模块用于在训练过程中,从所述发音编码器和所述韵律编码器拼接后的输出中预测说话人身份;所述发音解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文发音向量预测输出梅尔倒谱和停止标志;所述韵律解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文韵律向量预测输出能量、基频和清浊音标志。2.根据权利要求1所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述发音流声学子模型的发音编码器采用DC

TTS编码器,包括:两个一维卷积层和十二个高速1D

Conv层,该发音编码器设有256个隐藏单元;所述韵律流声学子模型的韵律编码器采用DC

TTS编码器,包括:两个一维卷积层和十
二个高速1D

Conv层,该韵律编码器设有128个隐藏单元。3.根据权利要求1或2所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述发音流声学子模型的发音解码器采用基于长短期记忆网络的解码器,该发音解码器的隐藏单元大小为1024;所述韵律流声学子模型的韵律解码器采用基于长短期记忆网络的解码器,该韵律解码器的隐藏单元大小为256。4.根据权利要求3所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述发音解码器包括:第一查找表模块、第一长短期记忆网络、第一线性层和第一具有sigmoid激活层的线性层;其中,所述第一查找表模块与所述长短期记忆网络相连,能将输入的说话人ID映射成说话人编码...

【专利技术属性】
技术研发人员:彭宇坤凌震华
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1