一种个性化语音合成方法及装置制造方法及图纸

技术编号:25483472 阅读:24 留言:0更新日期:2020-09-01 23:03
本发明专利技术公开了一种个性化语音合成方法及装置,包括:利用第一预设录音和第一预设录音对应的第一文本数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型,预设神经网络模型包括参数合成模型和语音合成模型;利用目标发音人的第二预设录音对训练后的预设神经网络模型进行二次训练,得到个性化网络模型;获取目标发音人的待合成文本;将待合成文本输入到个性化网络模型中获得目标合成语音。解决了现有技术中由于训练所需数据量较少且质量通常不高以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低的问题,大大的提高了用户的体验感。

【技术实现步骤摘要】
一种个性化语音合成方法及装置
本专利技术涉及语音合成
,尤其涉及一种个性化语音合成方法及装置。
技术介绍
近年来,随着语音技术的日趋成熟,语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域,合成音作为一种声音的展现,给社会生活带来便利与丰富性,具有潜在广阔的使用价值,现有的语音合成技术是利用大量的高质量语音数据来训练对应的模型,但是高质量语音数据获取成本很高,所以提出了自适应语音合成系统,即利用目标发音人少量的录音和文本数据快速构建合成系统,产生目标发音人音色的合成语音。但是这种方法存在以下缺点:由于训练所需数据量较少且质量通常不高以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低,影响了用户的体验感。
技术实现思路
针对上述所显示出来的问题,本方法基于利用第一预设录音和第一预设录音对应的第一文本数据来训练预设神经网络模型,然后利用目标发音人的第二预设录音和第二预设录音对应的第二文本数据来对训练后的预设神经网络模型再次训练获得个性化网络模型,然后利用个性化网络模型对本文档来自技高网...

【技术保护点】
1.一种个性化语音合成方法,其特征在于,包括以下步骤:/n利用第一预设录音和所述第一预设录音对应的第一文本数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型,所述预设神经网络模型包括参数合成模型和语音合成模型;/n利用目标发音人的第二预设录音对所述训练后的预设神经网络模型进行二次训练,得到个性化网络模型;/n获取所述目标发音人的待合成文本;/n将所述待合成文本输入到所述个性化网络模型中获得目标合成语音。/n

【技术特征摘要】
1.一种个性化语音合成方法,其特征在于,包括以下步骤:
利用第一预设录音和所述第一预设录音对应的第一文本数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型,所述预设神经网络模型包括参数合成模型和语音合成模型;
利用目标发音人的第二预设录音对所述训练后的预设神经网络模型进行二次训练,得到个性化网络模型;
获取所述目标发音人的待合成文本;
将所述待合成文本输入到所述个性化网络模型中获得目标合成语音。


2.根据权利要求1所述个性化语音合成方法,其特征在于,所述参数合成模型包括音素时长模型和基频预测模型,所述语音合成模型包括频谱参数预测模型和语音输出模型;
所述利用第一预设录音和所述第一预设录音对应的第一文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型,包括:
获取第一预设数量个第一预设录音和所述第一预设数量个第一预设录音各自对应的第一文本数据;
获取所述各第一文本数据中的第一表征音素序列和第一音素时长;
将所述各第一文本数据中的第一表征音素序列作为所述音素时长模型的输入,将所述各第一文本数据中的第一音素时长作为所述音素时长模型的输出来训练所述音素时长模型;
提取所述第一预设数量个第一预设录音各自的第一基频参数;
将所述各第一文本数据中的第一表征音素序列和所述第一预设数量个第一预设录音中各第一预设录音每帧在所述各第一文本数据中的第一表征音素序列中的第一位置信息作为所述基频预测模型的输入,将所述第一预设数量个第一预设录音各自的第一基频参数作为所述基频预测模型的输出来训练所述基频预测模型;
利用训练好的音素时长模型获取所述第一预设数量个第一预设录音的第二音素时长;
根据第一预设数量个第二音素时长对第一预设数量个第一表征音素序列进行第一帧扩展;
提取所述第一预设数量个第一预设语音各自的第一频谱参数;
将第一数量个第一帧扩展之后的第一表征序列作为所述频谱参数预测模型的输入;将所述第一预设数量个第一预设语音各自的第一频谱参数作为所述频谱参数预测模型的输出来训练所述频谱参数预测模型;
将所述第一预设数量个第一预设语音各自的第一频谱参数和第一预设数量个第一预设语音各自的第一基频参数作为所述语音输出模型的输入,将所述第一预设数量个第一预设语音作为所述语音输出模型的输出来训练所述语音输出模型;
当所述音素时长模型、基频预测模型、频谱参数预测模型和语音输出模型都训练完毕后,获得所述训练后的预设神经网络模型。


3.根据权利要求1所述个性化语音合成方法,其特征在于,在利用目标发音人的第二预设录音对所述训练后的预设神经网络模型进行二次训练,得到个性化网络模型之前,所述方法还包括:
获取第二预设数量个第二预设语音和所述第二预设数量个第二预设录音各自对应的第二文本数据;
检查所述第二预设数量个第二预设语音和所述第二预设数量个第二预设录音各自对应的第二文本数据的完整性,将不具有完整性的第二预设语音和第二文本数据剔除掉,重新获取具有完整性的第二预设语音和第二文本数据作为替换,所述完整性包括第二预设语音的语音内容完整和第二文本数据的数据内容完整;
对所述完整的第二预设语音进行预处理,去除所述完整的第二预设语音中的静音部分。


4.根据权利要求1所述个性化语音合成方法,其特征在于,所述利用目标发音人的第二预设录音对所述训练后的预设神经网络模型进行二次训练,得到个性化网络模型,包括:
获取所述各第二文本数据中的第二表征音素序列、第三音素时长和第二预设数量个第二预设录音中各第二预设录音每帧在所述各第二文本数据中的第二表征音素序列中的第二位置信息;
提取所述第二预设数量个第二预设语音各自的第二基频参数和第二频谱参数;
利用所述第二表征音素序列、第三音素时长、第二预设录音中每帧在所述第二表征音素序列中的第二位置信息、第二基频参数、第二频谱参数和第二预设语音来对所述训练后的神经网络模型进行二次训练;
二次训练完毕后获得所述个性化模型。


5.根据权利要求1所述个性化语音合成方法,其特征在于,所述将所述待合成文本输入到所述个性化网络模型中获得目标合成语音,包括:
对所述待合成文本进行解析,获取目标表征音素序列;
将所述目标表征音素序列输入到二次训练后的音素时长模型中获得目标音素音长;
根据所述目标音素时长对所述目标表征音素序列进行第二帧扩展;
根据第二帧扩展之后的目标表征音素序列获得所述目标合成语音的预测频谱参数和预测基频参数;
将所述预测频谱参数和预测基频参数输入到二次训练后的语音输出模型中获得所述目标合成语音。


6.一种个性化语音合成装置,其特征在于,该装置包括:
第一训练模块,用于利用第...

【专利技术属性】
技术研发人员:孙见青
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1