一种语音合成方法和系统技术方案

技术编号:21143709 阅读:23 留言:0更新日期:2019-05-18 05:55
本发明专利技术公开了一种语音合成方法,包括:将待处理的多语言文本转化为对应的混合音素集,并利用one‑hot编码映射得到音素混合序列;通过编码器将所述音素混合序列生成文本特征序列;通过解码器将所述文本特征序列生成预测声学频谱特征;将所述预测声学频谱特征合成语音波形。本发明专利技术实施例还公开了一种语音合成系统。采用本发明专利技术实施例,能够合成多种语言的语音,减少合成语音的误差,节省资源。

【技术实现步骤摘要】
一种语音合成方法和系统
本专利技术涉及语音
,尤其涉及一种语音合成方法和系统。
技术介绍
语音合成技术指将输入的文本转换成自然流畅的语音,让机器可以开口说话,扩展了人机交互方式,让人机沟通更加方便。语音合成技术是一种多学科交叉融合技术,主要涉及语言学、数字信号处理、声学、统计学和计算机科学等,目前已在语音客服网络、移动通信,智能家居等领域得到了广泛的应用。传统语音合成技术一般采用单元挑选和拼接的方法,通过缝合技术把预先录制的语音波形小片段拼接在一起输出对应文本的语音。还有一种方法是统计参数语音合成方法,其采用隐马尔科夫模型(HiddenMarkovModel,HMM)预测输出语音特征的平滑轨迹,然后由声码器来合成语音。传统的语音合成过程一般需要文本处理前端、语音持续时间模型、声学特征预测模型、声码器合成模型等多个组件的组合,而这些组件的设计需要大量专业领域知识,同时每个组件通常是单独训练的,在最后组装合成语音时会出现误差累计效应,给工程实践人员设计和调试带来极大的困难。另外,目前提出的语音合成方法都只针对一种语言的合成,对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,最后通过拼接合成多种语言混合的语音,这往往需要消耗额外的计算资源,同时拼接合成的语音也不够自然。
技术实现思路
本专利技术实施例的目的是提供一种语音合成方法和系统,能够合成多种语言的语音,减少合成语音的误差,节省资源。为实现上述目的,本专利技术实施例提供了一种语音合成方法,包括:将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;通过编码器将所述音素混合序列生成文本特征序列;通过解码器将所述文本特征序列生成预测声学频谱特征;将所述预测声学频谱特征合成语音波形。与现有技术相比,本专利技术公开的语音合成方法,首先,将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;然后,通过编码器将所述音素混合序列生成文本特征序列;最后,通过解码器将所述文本特征序列生成预测声学频谱特征,并将所述预测声学频谱特征合成语音波形。解决了现有技术中传统的语音合成过程需要多个组件的组合,在最后组装合成语音时会出现误差累计效应的问题;同时还解决了现有技术中对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,从而消耗额外的计算资源的问题。本专利技术实施例能够合成多种语言的语音,减少合成语音的误差,节省资源。作为上述方案的改进,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述通过编码器将所述音素混合序列生成文本特征序列,具体包括:利用混合音素集与所述神经网络的神经元构建音素向量表;根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。作为上述方案的改进,所述通过解码器将所述文本特征序列生成预测声学频谱特征,具体包括:在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。作为上述方案的改进,所述将所述预测声学频谱特征合成语音波形,具体包括:利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新,合成语音波形。作为上述方案的改进,所述将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列,具体包括:预先获取多语言的音频数据及对应的多语言文本;调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征;其中,所述音频处理包包括但不限于python中的librosa和pydub;将所述多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列。作为上述方案的改进,所述解码器的训练方法包括:在初始阶段,采用特征标记帧输入到预设参数的循环神经网络中,得到预测声学频谱特征;在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到预设参数的循环神经网络中,循环迭代得到所述预测声学频谱特征;利用损失评价函数对所述真实声学频谱特征与所述预测声学频谱特征之间的误差进行评价,将误差进行反向传播;更新预设参数,最小化所述预测声学频谱特征与所述真实声学频谱特征的误差。作为上述方案的改进,所述将所述预测声学频谱特征合成语音波形后,还包括:对所述语音波形进行处理,得到处理后的语音波形。为实现上述目的,本专利技术实施例还提供了一种语音合成系统,包括:预处理单元,用于将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;编码器单元,用于通过编码器将所述音素混合序列生成文本特征序列;解码器单元,用于通过解码器将所述文本特征序列生成预测声学频谱特征;语音波形合成单元,用于将所述预测声学频谱特征合成语音波形。与现有技术相比,本专利技术公开的语音合成系统,首先,预处理单元将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;然后,编码器单元通过编码器将所述音素混合序列生成文本特征序列;最后,解码器单元通过解码器将所述文本特征序列生成预测声学频谱特征,语音波形合成单元将所述预测声学频谱特征合成语音波形。解决了现有技术中传统的语音合成过程需要多个组件的组合,在最后组装合成语音时会出现误差累计效应的问题;同时还解决了现有技术中对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,从而消耗额外的计算资源的问题。本专利技术实施例能够合成多种语言的语音,减少合成语音的误差,节省资源。作为上述方案的改进,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述编码器单元具体用于:利用混合音素集与所述神经网络的神经元构建音素向量表;根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。作为上述方案的改进,所述解码器单元具体用于:在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。附图说明图1是本专利技术实施例提供的一种语音合成方法的流程图;图2是本专利技术实施例提供的一种语音合成方法中步骤S1的流程图;图3是本专利技术实施例提供的一种语音合成方法中步骤S2的流程图;图4是本专利技术实施例提供的一种语音合成方法中解码器的训练方法的流程图;图5是本专利技术实施例提供的一种语音合成系统的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一参见图1,图1是本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:将待处理的多语言文本转化为对应的混合音素集,并利用one‑hot编码映射得到音素混合序列;通过编码器将所述音素混合序列生成文本特征序列;通过解码器将所述文本特征序列生成预测声学频谱特征;将所述预测声学频谱特征合成语音波形。

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;通过编码器将所述音素混合序列生成文本特征序列;通过解码器将所述文本特征序列生成预测声学频谱特征;将所述预测声学频谱特征合成语音波形。2.如权利要求1所述的语音合成方法,其特征在于,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述通过编码器将所述音素混合序列生成文本特征序列,具体包括:利用混合音素集与所述神经网络的神经元构建音素向量表;根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。3.如权利要求1所述的语音合成方法,其特征在于,所述通过解码器将所述文本特征序列生成预测声学频谱特征,具体包括:在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。4.如权利要求1所述的语音合成方法,其特征在于,所述将所述预测声学频谱特征合成语音波形,具体包括:利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新,合成语音波形。5.如权利要求1所述的语音合成方法,其特征在于,所述将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列,具体包括:预先获取多语言的音频数据及对应的多语言文本;调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征;其中,所述音频处理包包括但不限于python中的librosa和pydub;将所述多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广州多益网络股份有限公司广东利为网络科技有限公司多益网络有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1