语音合成方法及系统技术方案

技术编号:32856347 阅读:26 留言:0更新日期:2022-03-30 19:27
本发明专利技术提供了一种语音合成方法,包括:获取目标说话人的目标频谱特征;基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;基于编码模型对待合成文本的处理,获得文本编码向量;基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;基于声码模型对所述预测频谱特征的处理,获得合成音频。可以在少样本个性化语音合成的任务中提升了音质以及自然度。提升了音质以及自然度。提升了音质以及自然度。

【技术实现步骤摘要】
语音合成方法及系统


[0001]本专利技术涉及语音合成
,具体涉及一种语音合成方法及系统。

技术介绍

[0002]语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意 的可听的语音。涉及到声学、语言学、计算机科学等多门学科。然而,少样本的个 性化语音合成即使热点又是难点。在少样本的个性化语音合成中,由于样本数量的 限制在现有的声学模型上往往表现出较低的音质和相似度。

技术实现思路

[0003]本专利技术的目的在于提供一种语音合成方法及系统。以期解决
技术介绍
中存在的 技术问题。
[0004]为了实现上述目的,本专利技术采用以下技术方案:
[0005]一种语音合成方法,包括:
[0006]获取目标说话人的目标频谱特征;
[0007]基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向 量;
[0008]基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级 目标声学预测向量;
[0009]基于编码模型对待合成文本的处理,获得文本编码向本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取目标说话人的目标频谱特征;基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;基于编码模型对待合成文本的处理,获得文本编码向量;基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;基于声码模型对所述预测频谱特征的处理,获得合成音频。2.根据权利要求1所述的方法,其特征在于,所述识别模型为机器学习模型,所述识别模型的训练样本包括多个不同说话人的音频及对应的文本。3.根据权利要求1所述的方法,其特征在于,所述目标频谱特征包括以下至少一种:线性频谱特征、梅尔频谱特征。4.根据权利要求1所述的方法,其特征在于,待合成文本为经预处理的合成文本,所述预处理包括筛选出非法音节、进行分词、词性标注。5.根据权利要求4所述的方法,其特征在于,所述预处理还包括:对所述合成文本进行综合语言学特征提取,并将提取的所述综合语言学特征输入到韵律预测模型,获得停顿级别标注;将所述合成文本的中文汉字转换为对应的拼音音素。6.根据权利要求1所述的方法,其特征在于,对所述目标频谱特征的处理还包括:通过强制对齐算法获得频谱特征与待合成文本之间的对齐结果;根据所述对齐结果分别对目标频谱特征在音素级、音节级上对每一帧进行平均;所述编码模型包括音素级编...

【专利技术属性】
技术研发人员:朱海
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1