一种基于条件生成对抗网络的蒙古语情感语音合成方法技术

技术编号:39486405 阅读:9 留言:0更新日期:2023-11-24 11:06
一种基于条件生成对抗网络的蒙古语情感语音合成方法,对蒙古语文本进行字母到音素转换,得到音素序列数据;从蒙古语情感音频提取梅尔频谱一;将音素序列数据与梅尔频谱一输入语音文本联合预训练模型,训练语音和文本的对齐信息;

【技术实现步骤摘要】
一种基于条件生成对抗网络的蒙古语情感语音合成方法


[0001]本专利技术属于人工智能
,涉及语音合成,特别涉及一种基于条件生成对抗网络的蒙古语情感语音合成方法


技术介绍

[0002]语音合成
(Speech Synthesis)
技术是指计算机通过分析处理将任意文本转化为流畅语音的技术

国内外语音合成研究经历了基于源

滤波器语音合成

基于波形拼接语音合成

基于统计参数语音合成,以及基于深度神经网络的语音合成方法的发展历程

[0003]蒙古语已经可以合成具有较高自然度和可懂度的语音,但蒙古语情感语音合成由于情感语料稀缺且研究投入较少等问题使得其仍然处在初级阶段,因此对于基于深度神经网络的方式合成蒙古语情感语音来说,发展的空间是十分巨大的


技术实现思路

[0004]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于条件生成对抗网络的蒙古语情感语音合成方法,具有端到端的生成式文本转情感语音模型,可以直接从字符合成情感语音,大大降低对语言学知识的要求

[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于条件生成对抗网络的蒙古语情感语音合成方法,包括:
[0007]步骤1,获取待合成的蒙古语文本和蒙古语情感音频;
[0008]步骤2,对所述蒙古语文本进行字母到音素转换,得到音素序列数据;从所述蒙古语情感音频提取梅尔频谱一;
[0009]步骤3,将所述音素序列数据与梅尔频谱一输入语音文本联合预训练模型,训练语音和文本的对齐信息;
[0010]步骤4,在
FastSpeech2
声学模型中加入情感模块,得到改进模型,以所述改进模型为生成器,引入鉴别器和情感标签构建条件生成式对抗网络;所述生成器以语音文本联合预训练模型的输出为输入,输出梅尔频谱二,所述鉴别器判断所述梅尔频谱二与梅尔频谱一,直至误差小于预设;
[0011]步骤5,将满足误差要求的梅尔频谱二输入至声码器,将声学特征转换为语音波形,完成蒙古语情感语音合成

[0012]与现有技术相比,本专利技术的创新性在于:
[0013]使用
Encoder

Decoder
模型将蒙古语文本转化成音素,可以无缝地集成到端到端的
TTS
系统,其次使用基于条件生成对抗网络以增加情感编码器模块
FastSpeech2
模型作为声学模型,结合情感标签条件学习到隐式情感风格特征,将音素直接生成梅尔频谱,
HiFiGAN
声码器直接将梅尔频谱转化为语音波形

本专利技术以条件生成对抗网络为核心结构,结合
FastSpeech2
声学模型和
HiFiGAN
声码器,实现蒙古语情感语音合成,这种合成方式在蒙古语情感语音合成中尚未得到应用

附图说明
[0014]图1是本专利技术流程图

[0015]图2是生成对抗网络示意图

[0016]图3是
FastSpeech
模型示意图

[0017]图4是
FastSpeech2
模型示意图

[0018]图5是增加情感编码器的
FastSpeech2
模型示意图

[0019]图6是情感编码器模块结构示意图

[0020]图7是
SpeechLM
语音文本联合预训练模型示意图

具体实施方式
[0021]下面结合附图和实施例详细说明本专利技术的实施方式

[0022]如图1所示,本专利技术为一种基于条件生成对抗网络的蒙古语情感语音合成方法,包括如下步骤:
[0023]步骤1,获取待合成的蒙古语文本和蒙古语情感音频

[0024]本专利技术中,使用蒙古语文本和蒙古语情感音频构成的平行语料,在平行语料中,每条蒙古语文本对应一条带有情感标签的蒙古语音频

[0025]步骤2,对所述蒙古语文本进行字母到音素转换,得到音素序列数据

从所述蒙古语情感音频提取梅尔频谱一

[0026]本步骤包括音素序列数据的获取和梅尔频谱一的提取

对于音素序列数据,本专利技术采用基于
Encoder

Decoder
的蒙古语
G2P(Grapheme

to

Phoneme)
转换模型进行字母到音素转换,
Encoder

Decoder
结构在不同的
NLP
任务中显示了最新的结果,这些方法的主要思想有两个步骤:第一步是将输入序列映射到一个向量;第二步是基于学习向量生成输出序列表示
。Encoder

Decoder
模型在编码器处理完完整的输入序列后生成一个输出,这使得解码器能够从输入的任何部分学习,而不受固定上下文窗口的限制

例如首先将蒙古语单词:
(
汉语意思:击打
)
拉丁转写为:“cqhihv”,编码器的输入是“cqhihv”字形序列,解码器产生“q oe h ws h”作为音素序列

模型在生成音素结束标记后停止进行预测

[0027]本专利技术使用
Encoder

Decoder
架构,编码器使用卷积神经网络结构,具有残差连接和批量标准化

解码器是一个双向
LSTM
,将输入的蒙古语文本序列映射到一个向量,基于学习向量生成输出序列表示,即音素序列数据

由于字母转音素任务实际上是一个简化的机器翻译任务,所以序列到序列模型完全适用于处理字母转音素问题

基于神经网络的
G2P
转化对拼写错误和集外词具有很强的鲁棒性;它具有很好的泛化能力

此外,它还可以无缝地集成到端到端的
TTS
系统

[0028]进一步地,输入的蒙古语文本中可能会包含日期

数字

英文字母等非蒙古文字符的特殊字符,在进行蒙古文转换拉丁操作之前,需要将特殊文字符转写为相应的蒙古文表达式并进行校正,否则会导致漏词

蒙古文转拉丁错误等问题

在进行拉丁转换时,根据蒙古文和拉丁文的对应关系,将蒙古语文本统一转写成拉丁表示序列

[0029]对于梅尔频谱一,本专利技术使用
libros本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于条件生成对抗网络的蒙古语情感语音合成方法,其特征在于,包括:步骤1,获取待合成的蒙古语文本和蒙古语情感音频;步骤2,对所述蒙古语文本进行字母到音素转换,得到音素序列数据;从所述蒙古语情感音频提取梅尔频谱一;步骤3,将所述音素序列数据与梅尔频谱一输入语音文本联合预训练模型,训练语音和文本的对齐信息;步骤4,在
FastSpeech2
声学模型中加入情感模块,得到改进模型,以所述改进模型为生成器,引入鉴别器和情感标签构建条件生成式对抗网络;所述生成器以语音文本联合预训练模型的输出为输入,输出梅尔频谱二,所述鉴别器判断所述梅尔频谱二与梅尔频谱一,直至误差小于预设;步骤5,将满足误差要求的梅尔频谱二输入至声码器,将声学特征转换为语音波形,完成蒙古语情感语音合成
。2.
根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法,其特征在于,所述步骤1,蒙古语文本和蒙古语情感音频为平行语料,每条蒙古语文本对应一条带有情感标签的蒙古语音频
。3.
根据权利要求1所述基于条件生成对抗网络的蒙古语情感语音合成方法,其特征在于,所述步骤2,采用基于
Encoder

Decoder
的蒙古语
G2P
转换模型进行字母到音素转换,其中编码器使用卷积神经网络结构,具有残差连接连接和批量标准化,解码器为一个双
LSTM
,将输入的蒙古语文本序列映射到一个向量,基于学习向量生成输出序列表示,即音素序列数据
。4.
根据权利要求1所述基于条件生...

【专利技术属性】
技术研发人员:仁庆道尔吉王乐乐石宝吉亚图李雷孝
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1