一种语音合成方法和系统技术方案

技术编号：21143709 阅读：23 留言：0更新日期：2019-05-18 05:55

本发明专利技术公开了一种语音合成方法，包括：将待处理的多语言文本转化为对应的混合音素集，并利用one‑hot编码映射得到音素混合序列；通过编码器将所述音素混合序列生成文本特征序列；通过解码器将所述文本特征序列生成预测声学频谱特征；将所述预测声学频谱特征合成语音波形。本发明专利技术实施例还公开了一种语音合成系统。采用本发明专利技术实施例，能够合成多种语言的语音，减少合成语音的误差，节省资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法和系统
本专利技术涉及语音
，尤其涉及一种语音合成方法和系统。
技术介绍
语音合成技术指将输入的文本转换成自然流畅的语音，让机器可以开口说话，扩展了人机交互方式，让人机沟通更加方便。语音合成技术是一种多学科交叉融合技术，主要涉及语言学、数字信号处理、声学、统计学和计算机科学等，目前已在语音客服网络、移动通信，智能家居等领域得到了广泛的应用。传统语音合成技术一般采用单元挑选和拼接的方法，通过缝合技术把预先录制的语音波形小片段拼接在一起输出对应文本的语音。还有一种方法是统计参数语音合成方法，其采用隐马尔科夫模型(HiddenMarkovModel,HMM)预测输出语音特征的平滑轨迹，然后由声码器来合成语音。传统的语音合成过程一般需要文本处理前端、语音持续时间模型、声学特征预测模型、声码器合成模型等多个组件的组合，而这些组件的设计需要大量专业领域知识，同时每个组件通常是单独训练的，在最后组装合成语音时会出现误差累计效应，给工程实践人员设计和调试带来极大的困难。另外，目前提出的语音合成方法都只针对一种语言的合成，对于不同场景下多种语言的语音合成，需要切换多个模型来合成相应的语音，最后通过拼接合成多种语言混合的语音，这往往需要消耗额外的计算资源，同时拼接合成的语音也不够自然。
技术实现思路
本专利技术实施例的目的是提供一种语音合成方法和系统，能够合成多种语言的语音，减少合成语音的误差，节省资源。为实现上述目的，本专利技术实施例提供了一种语音合成方法，包括：将待处理的多语言文本转化为对应的混合音素集，并利用one-hot编码映射得到音素混合序列；通过...

【技术保护点】
1.一种语音合成方法，其特征在于，包括：将待处理的多语言文本转化为对应的混合音素集，并利用one‑hot编码映射得到音素混合序列；通过编码器将所述音素混合序列生成文本特征序列；通过解码器将所述文本特征序列生成预测声学频谱特征；将所述预测声学频谱特征合成语音波形。

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：将待处理的多语言文本转化为对应的混合音素集，并利用one-hot编码映射得到音素混合序列；通过编码器将所述音素混合序列生成文本特征序列；通过解码器将所述文本特征序列生成预测声学频谱特征；将所述预测声学频谱特征合成语音波形。2.如权利要求1所述的语音合成方法，其特征在于，所述编码器由神经网络训练得到；其中，所述神经网络包括卷积神经网络和循环神经网络中的至少一种；则，所述通过编码器将所述音素混合序列生成文本特征序列，具体包括：利用混合音素集与所述神经网络的神经元构建音素向量表；根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量；利用所述神经网络对所述音素向量施加非线性变换，得到文本特征序列。3.如权利要求1所述的语音合成方法，其特征在于，所述通过解码器将所述文本特征序列生成预测声学频谱特征，具体包括：在初始阶段，采用特征标记帧输入到预先训练好的循环神经网络中，得到预测声学频谱特征；在后续每个时间步上，将所述预测声学频谱特征与所述文本特征序列拼接，并输入到所述循环神经网络中，循环迭代得到所述预测声学频谱特征。4.如权利要求1所述的语音合成方法，其特征在于，所述将所述预测声学频谱特征合成语音波形，具体包括：利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新，合成语音波形。5.如权利要求1所述的语音合成方法，其特征在于，所述将待处理的多语言文本转化为对应的混合音素集，并利用one-hot编码映射得到音素混合序列，具体包括：预先获取多语言的音频数据及对应的多语言文本；调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征；其中，所述音频处理包包括但不限于python中的librosa和pydub；将所述多语言文本转化为对应的混合音素集，并利用one-hot编码映射得到音素...

【专利技术属性】
技术研发人员：徐波，
申请(专利权)人：广州多益网络股份有限公司，广东利为网络科技有限公司，多益网络有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人