语音合成方法及系统技术方案

技术编号：32856347 阅读：26 留言：0更新日期：2022-03-30 19:27

本发明专利技术提供了一种语音合成方法，包括：获取目标说话人的目标频谱特征；基于识别模型对所述目标频谱特征的处理，获得所述目标说话人的语音识别向量；基于预测模型对所述目标频谱特征的处理，分别获得音素级、音节级、句子级目标声学预测向量；基于编码模型对待合成文本的处理，获得文本编码向量；基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理，得到预测频谱特征；基于声码模型对所述预测频谱特征的处理，获得合成音频。可以在少样本个性化语音合成的任务中提升了音质以及自然度。提升了音质以及自然度。提升了音质以及自然度。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法及系统

[0001]本专利技术涉及语音合成
，具体涉及一种语音合成方法及系统。

技术介绍

[0002]语音合成是一种将文本信息转换为语音信息的技术，即将文字信息转换为任意的可听的语音。涉及到声学、语言学、计算机科学等多门学科。然而，少样本的个性化语音合成即使热点又是难点。在少样本的个性化语音合成中，由于样本数量的限制在现有的声学模型上往往表现出较低的音质和相似度。

技术实现思路

[0003]本专利技术的目的在于提供一种语音合成方法及系统。以期解决
技术介绍
中存在的技术问题。
[0004]为了实现上述目的，本专利技术采用以下技术方案：
[0005]一种语音合成方法，包括：
[0006]获取目标说话人的目标频谱特征；
[0007]基于识别模型对所述目标频谱特征的处理，获得所述目标说话人的语音识别向量；
[0008]基于预测模型对所述目标频谱特征的处理，分别获得音素级、音节级、句子级目标声学预测向量；
[0009]基于编码模型对待合成文本的...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取目标说话人的目标频谱特征；基于识别模型对所述目标频谱特征的处理，获得所述目标说话人的语音识别向量；基于预测模型对所述目标频谱特征的处理，分别获得音素级、音节级、句子级目标声学预测向量；基于编码模型对待合成文本的处理，获得文本编码向量；基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理，得到预测频谱特征；基于声码模型对所述预测频谱特征的处理，获得合成音频。2.根据权利要求1所述的方法，其特征在于，所述识别模型为机器学习模型，所述识别模型的训练样本包括多个不同说话人的音频及对应的文本。3.根据权利要求1所述的方法，其特征在于，所述目标频谱特征包括以下至少一种：线性频谱特征、梅尔频谱特征。4.根据权利要求1所述的方法，其特征在于，待合成文本为经预处理的合成文本，所述预处理包括筛选出非法音节、进行分词、词性标注。5.根据权利要求4所述的方法，其特征在于，所述预处理还包括：对所述合成文本进行综合语言学特征提取，并将提取的所述综合语言学特征输入到韵律预测模型，获得停顿级别标注；将所述合成文本的中文汉字转换为对应的拼音音素。6.根据权利要求1所述的方法，其特征在于，对所述目标频谱特征的处理还包括：通过强制对齐算法获得频谱特征与待合成文本之间的对齐结果；根据所述对齐结果分别对目标频谱特征在音素级、音节级上对每一帧进行平均；所述编码模型包括音素级编...

【专利技术属性】
技术研发人员：朱海，
申请(专利权)人：四川启睿克科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人