【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质
[0001]本专利技术涉及语音信号处理领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
技术介绍
[0002]语音合成,又称文语转换(text to speech,TTS),是一种可以将任意输入文本转换成相应语音的技术,是自然语言处理领域中一个重要的研究分支。
[0003]语音合成的研究历史可以追溯到18至19世纪,从早期的基于规则的机械式、电子式语音合成器,到基于波形拼接、统计参数的语音合成,近年来,深度学习的引入使得语音合成效果得到了显著提升,但是,如果想使得深度学习语音合成的效果变好,必须需要大量的语料库进行训练,现有技术中的语料库获取比较困难,导致合成语音的效果差。
技术实现思路
[0004]本专利技术提供了一种语音合成方法、装置、设备及存储介质,用于调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
[0005]本专利技术第一方面提供了 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述语音合成方法包括:获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列;获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型;调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列;通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列包括:获取初始文本,对所述初始文本进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本;调用预置的文本分词工具,对所述预处理文本进行分词处理,得到分词文本;通过预置的字素转音素模型和预置的映射词典,对所述分词文本进行映射转换,得到音节序列,所述音节序列包括声母序列、韵母序列和所述韵母序列对应的声调。3.根据权利要求1所述的语音合成方法,其特征在于,所述获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型包括:获取训练文本,所述训练文本包括多个子文本,每一个子文本包括训练集文本和测试集文本;获取预置的声学模型的参数,通过所述训练文本和预置的模型无关元学习算法,计算所述声学模型的损失函数,得到模型损失函数,所述预置的声学模型为神经网络语音合成模型;基于所述模型损失函数求所述声学模型的参数对应的偏导数,得到参数偏导数;基于所述参数偏导数,通过预置的梯度下降法对所述预置的声学模型的所述参数进行更新,得到优化后的声学模型。4.根据权利要求1所述的语音合成方法,其特征在于,所述调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列包括:调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对所述音节序列进行编码运算,得到编码特征;调用所述优化后的声学模型中的解码器,对所述编码特征进行基于注意力机制的解码运算,得到梅尔频谱序列。5.根据权利要求4所述的语音合成方法,其特征在于,所述调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对所述音节序列进行编码运算,得到编码特征包括:调用所述优化后的声学模...
【专利技术属性】
技术研发人员:张旭龙,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。