【技术实现步骤摘要】
一种稳定可控的端到端语音合成方法及装置
本专利技术涉及语音合成
,尤其涉及一种稳定可控的端到端语音合成方法及装置。
技术介绍
近年来,随着语音技术的日趋成熟,语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域,合成音作为一种声音的展现,给社会生活带来便利与丰富性,具有潜在广阔的使用价值,现有的语音合成技术是根据预设录音和预设录音对应的文本对神经网络模型进行训练进而构建端到端语音合成系统,为了保证合成语音的稳定性,以及可以对时长进行控制,加入了时长控制模块。但是这种方法存在以下缺点:加入时长控制模块可以一定程度提升合成语音的稳定性,但是会引入由于时长预测精度不足而导致合成语音效果不好的问题,降低了用户的体验感。
技术实现思路
针对上述所显示出来的问题,本方法基于在预设网络神经模型中加入了音素时长模型来优化语音合成效果,利用预设录音和其对应的文本数据来训练预设神经网络模型,然后利用训练后的预设神经网络模型来对待合成文本进行语音合成。一种稳定可控的端到 ...
【技术保护点】
1.一种稳定可控的端到端语音合成方法,其特征在于,包括以下步骤:/n利用预设录音和所述预设录音对应的文本数据训练预设神经网络模型,获得训练后的预设神经网络模型,所述预设神经网络模型包括音素时长模型、频谱参数预测模型和语音输出模型;/n获取待合成文本;/n将所述待合成文本输入到所述训练后的预设神经网络模型中获得目标合成语音。/n
【技术特征摘要】
1.一种稳定可控的端到端语音合成方法,其特征在于,包括以下步骤:
利用预设录音和所述预设录音对应的文本数据训练预设神经网络模型,获得训练后的预设神经网络模型,所述预设神经网络模型包括音素时长模型、频谱参数预测模型和语音输出模型;
获取待合成文本;
将所述待合成文本输入到所述训练后的预设神经网络模型中获得目标合成语音。
2.根据权利要求1所述稳定可控的端到端语音合成方法,其特征在于,在利用预设录音和所述预设录音对应的文本数据训练预设神经网络模型,所述预设神经网络模型包括音素时长模型、频谱参数预测模型和语音输出模型之前,所述方法还包括:
获取预设数量个所述预设语音和所述预设数量个预设语音对应的预设数量个文本数据;
对所述预设数量个预设语音进行预处理,过滤掉所述预设数量个预设语音中的噪音成分,去除掉所述预设数量个预设语音中的静音成分;
检查所述预设数量个文本数据的文本内容是否有缺陷,所述缺陷包括:文本内容不完整,文本内容读不通和文本内容具有逻辑问题,将所述预设数量个文本数据中具有所述缺陷的第一数量个第一文本数据和其对应的第一预设语音剔除;
将所述预设数量个文本数据中没有所述缺陷的第二数量个第二文本数据和其对应的第二预设语音确定为所述预设录音和所述预设录音对应的文本数据。
3.根据权利要求1所述稳定可控的端到端语音合成方法,其特征在于,所述利用预设录音和所述预设录音对应的文本数据训练预设神经网络模型,所述预设神经网络模型包括音素时长模型、频谱参数预测模型和语音输出模型,包括:
获取所述第二数量个文本数据中各文本数据中的表征音素序列和第一音素时长;
将第二数量个表征音素序列作为所述音素时长模型的输入,将所述第二数量个第一音素时长作为所述音素时长模型的输出来训练所述音素时长模型;
利用训练好的音素时长模型获取所述第二数量个预设录音的第二音素时长;
根据第二数量个第二音素时长对所述第二数量个表征音素序列进行第一帧扩展;
提取所述第二数量个预设录音的频谱参数;
将第二数量个第一帧扩展之后的表征音素序列作为所述频谱参数预测模型的输入,将所述第二数量个频谱参数作为所述频谱参数模型的输出来训练所述频谱参数预设模型;
将所述第二数量个频谱参数作为所述语音输出模型的输入,将所述第二数量个预设录音作为所述语音输出模型的输出来训练所述语音输出模型;
当所述音素时长模型、频谱参数预测模型和语音输出模型都训练完毕后,获得所述训练后的预设神经网络模型。
4.根据权利要求1所述稳定可控的端到端语音合成方法,其特征在于,在获取待合成文本之前,所述方法还包括:
获取待合成文本内容中的n个汉字;
确认所述n个汉字是否有多音字;
若是,获取所述n个汉字中是多音字的第一汉字的第一字母序列和第二字母序列,所述第一字母序列为所述第一汉字为第一音调时组成所述第一音调的字母的第一序列,所述第二字母序列为所述第一汉字为第二音调时组成所述第二音调的字母的第二序列;
根据所述待合成文本内容在所述第一字母序列和第二字母序列中选择目标字母序列;
获取第二汉字的第三字母序列,所述第二汉字为所述n个汉字中除所述第一汉字之外的汉字;
将所述目标字母序列和第三序列标注到所述待合成文本内容中的n个汉字各自对应的汉字上。
5.根据权利要求1所述稳定可控的端到端语音合成方法,其特征在于,所述将所述待合成文本输入到所述训练后的预设神经网络模型中获得目标合成语音,包括:
对所述待合成文本进行解析,获取目标表征音素序列;
将所述目标表征音素序列输入到所述训练后的音素时长模型中获得目标音素音长;
根据所述目标音素时长对所述目标表征音素序列进行第二帧扩展;
将第二帧扩展之后的目标表征音素序列输入到训练后的频谱参数预设模型中获得预测频谱参数;
将所述预测频谱参数输入到训练后的语音输出模型中获得所述目标合成语音。
6.一种稳定可控的端到端语音装置,其特征在于,该装置包括:<...
【专利技术属性】
技术研发人员:孙见青,
申请(专利权)人:云知声智能科技股份有限公司,厦门云知芯智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。