【技术实现步骤摘要】
一种基于条件生成对抗网络的蒙古语情感语音合成方法
[0001]本专利技术属于人工智能
,涉及语音合成,特别涉及一种基于条件生成对抗网络的蒙古语情感语音合成方法
。
技术介绍
[0002]语音合成
(Speech Synthesis)
技术是指计算机通过分析处理将任意文本转化为流畅语音的技术
。
国内外语音合成研究经历了基于源
‑
滤波器语音合成
、
基于波形拼接语音合成
、
基于统计参数语音合成,以及基于深度神经网络的语音合成方法的发展历程
。
[0003]蒙古语已经可以合成具有较高自然度和可懂度的语音,但蒙古语情感语音合成由于情感语料稀缺且研究投入较少等问题使得其仍然处在初级阶段,因此对于基于深度神经网络的方式合成蒙古语情感语音来说,发展的空间是十分巨大的
。
技术实现思路
[0004]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于条件生成对抗网络的蒙古语情感语音合成方法,具有端到端的生成式文本转情感语音模型,可以直接从字符合成情感语音,大大降低对语言学知识的要求
。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于条件生成对抗网络的蒙古语情感语音合成方法,包括:
[0007]步骤1,获取待合成的蒙古语文本和蒙古语情感音频;
[0008]步骤2,对所述蒙古语文本进行字母到音素转换,得到音素序列数据; ...
【技术保护点】
【技术特征摘要】
1.
一种基于条件生成对抗网络的蒙古语情感语音合成方法,其特征在于,包括:步骤1,获取待合成的蒙古语文本和蒙古语情感音频;步骤2,对所述蒙古语文本进行字母到音素转换,得到音素序列数据;从所述蒙古语情感音频提取梅尔频谱一;步骤3,将所述音素序列数据与梅尔频谱一输入语音文本联合预训练模型,训练语音和文本的对齐信息;步骤4,在
FastSpeech2
声学模型中加入情感模块,得到改进模型,以所述改进模型为生成器,引入鉴别器和情感标签构建条件生成式对抗网络;所述生成器以语音文本联合预训练模型的输出为输入,输出梅尔频谱二,所述鉴别器判断所述梅尔频谱二与梅尔频谱一,直至误差小于预设;步骤5,将满足误差要求的梅尔频谱二输入至声码器,将声学特征转换为语音波形,完成蒙古语情感语音合成
。2.
根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法,其特征在于,所述步骤1,蒙古语文本和蒙古语情感音频为平行语料,每条蒙古语文本对应一条带有情感标签的蒙古语音频
。3.
根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法,其特征在于,所述步骤2,采用基于
Encoder
‑
Decoder
的蒙古语
G2P
转换模型进行字母到音素转换,其中编码器使用卷积神经网络结构,具有残差连接连接和批量标准化,解码器为一个双
LSTM
,将输入的蒙古语文本序列映射到一个向量,基于学习向量生成输出序列表示,即音素序列数据
。4.
根据权利要求1所述基于条件生...
【专利技术属性】
技术研发人员:仁庆道尔吉,王乐乐,石宝,吉亚图,李雷孝,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。