【技术实现步骤摘要】
支持多说话人风格、语言切换且韵律可控的语音合成装置
本专利技术属于语音合成领域,尤其涉及一种支持多说话人风格、语言切换且韵律可控的语音合成装置。
技术介绍
近年来随着深度学习的发展,语音合成技术也得到了很大程度上的提高。语音合成从传统的参数法和拼接法走向了端到端的方式。它们通常是先由文本特征生成梅尔频谱,然后将梅尔频谱利用声码器像来合成语音。这些端到端的方法按照结构可以分为自回归的模型和非自回归的模型。自回归的模型通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成:要生成当前数据点,必须生成时间序列里前面的所有数据点作为模型输入,像Taoctron,Taoctron2,Deepvoice3,Clarinet,TansformerTTS。尽管自回归的模型能够生成令人满意的结果,但是如果Attention产生的注意力不够好,则可能会导致合成的语音中有重复或者漏字的现象。非自回归的模型能够并行化的由文本特征生成梅尔频谱,生成的速度要比自回归的模型快很多,像ParaNet,Fast ...
【技术保护点】
1.一种支持多说话人风格、语言切换且韵律可控的语音合成装置,其特征在于,包括:/n文本获取单元,其用于根据语音合成装置所处的模式获取不同的文本数据,包括在训练模式时获取带韵律标签的混合训练文本及对应的标准语音音频,并标记每一条标准语音音频的说话人标签;在预测模式时获取待合成文本;/n文本预处理单元,其用于将文本转化为带韵律标签的音素序列,并且在训练模式时,还要根据文本对应的标准语音音频输出真实的梅尔频谱、真实的能量、真实的音高、真实的时长和对应的说话人标签;/n语言切换单元,其用于存储并展示不同语言类型的训练数据对应的说话人标签,并且自动识别待合成文本的语言类型;/n风格切 ...
【技术特征摘要】
1.一种支持多说话人风格、语言切换且韵律可控的语音合成装置,其特征在于,包括:
文本获取单元,其用于根据语音合成装置所处的模式获取不同的文本数据,包括在训练模式时获取带韵律标签的混合训练文本及对应的标准语音音频,并标记每一条标准语音音频的说话人标签;在预测模式时获取待合成文本;
文本预处理单元,其用于将文本转化为带韵律标签的音素序列,并且在训练模式时,还要根据文本对应的标准语音音频输出真实的梅尔频谱、真实的能量、真实的音高、真实的时长和对应的说话人标签;
语言切换单元,其用于存储并展示不同语言类型的训练数据对应的说话人标签,并且自动识别待合成文本的语言类型;
风格切换单元,其用于读取语言切换单元展示的文本的语言类型,根据语言类型设定第一说话人标签作为语音合成风格;
说话人切换单元,其用于设定第二说话人标签作为指定说话人;
在训练模式时,所述的第一说话人标签和第二说话人标签均为混合训练样本中标记的说话人标签;在预测模式时,所述的第一说话人标签和第二说话人标签由用户分别通过风格切换单元和说话人切换单元进行指定;
编码-解码单元,其包括编码器、韵律控制单元和解码器,所述的编码器用于对带韵律标签的音素序列、第一说话人标签和第二说话人标签进行编码;韵律控制单元用于预测并调节语音合成的时长、音高和能量;解码器用于对第一说话人编码信息、第二说话人编码信息、以及经韵律控制单元调节后的音高和能量进行组合,并对组合后的编码信息进行解码,获得预测梅尔频谱;
训练单元,其用于对编码-解码单元进行训练,训练结束后保存为模型文件;
语音合成单元,其用于加载训练单元生成的模型文件,并读取文本获取单元中的待合成文本、风格切换单元设定的第一说话人标签、说话人切换单元设定的第二说话人标签作为模型的输入,生成预测梅尔频谱,并转化为声音信号进行语音播放。
2.根据权利要求1所述的一种支持多说话人风格、语言切换且韵律可控的语音合成装置,其特征在于,所述的文本预处理单元将文本转化为带韵律标签的音素序列,具体为:
针对文本中的不同语言类型,分别转成对应的发音音素,构建混合的音素字典;采用混合的音素字典将带有韵律标注的音素映射到序列化数据,得到音素序列w1,w2,…,wU,其中U为文本的长度。
3.根据权利要求1所述的一种支持多说话人风格、语言切换且韵律可控的语音合成装置,其特征在于,所述的韵律控制单元,包括:
时长控制单元,其用于对CBHG模块输出的文本编码信息和第一说话人编码信息进行时长的预测,输出预测的时长,并对预测的时长进行时长调节;
对齐单元,其用于根据时长控制单元输出的时长信息,将编码器输出的不含韵律标签的文本编码信息进行对齐,在训练模式时,需要达到和真实的梅尔频谱长度一致,在预测模式时,根据训练好的时长控制单元输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充,扩充后输出经过时长调节后的文本编码信息;
能量控制单元,其用于读取对齐单元输出的时长调节后的文本编码信息、以及第一说话人编码信息,生成预测的能量,并对预测的能量进行能量调节;
高音控制单元,其用于读取对齐单元输出的时长调节后的文本编码信息、以及第二说话人编码信息,生成预测的音高,并对预测的音高进行音高调节。
4.根据权利要求3所述的一种支持多说话人风格、语言切换且韵律可控的语音合成装置,其特征在于,所述对齐单元的运算步骤为:将跳跃编码后不含韵律标签位置的文本编码信息t1,t2,…,tU′结合时长控制单元输出的时长信息进行长度扩充,长度扩充的标准为:在训练阶段,需要达到和真实的梅尔频谱的长度一致;在预测阶段,根据训练好的时长控制单元输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充;扩充后得到经过时长调节后的文本编码信息t1,t2,…,tT,T为提取的真实梅尔频谱的帧数。
5.根据权利要求3所述的一种支持多说话人风格、语言切换且韵律可控的语音合成装置,其特征在于,所述的...
【专利技术属性】
技术研发人员:盛乐园,
申请(专利权)人:杭州一知智能科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。