一种自适应语音合成方法及装置制造方法及图纸

技术编号：24941876 阅读：28 留言：0更新日期：2020-07-17 21:48

本发明专利技术公开了一种自适应语音合成方法及装置，包括：利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练；利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将静态语音参数输入到合成器中获得合成语音。有效的解决了现有技术中由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低的问题，提高了用户的体验感。

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应语音合成方法及装置
本专利技术涉及语音合成
，尤其涉及一种自适应语音合成方法及装置。
技术介绍
近年来，随着语音技术的日趋成熟，语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域，合成音作为一种声音的展现，给社会生活带来便利与丰富性，具有潜在广阔的使用价值，现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练，然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练，所述提出了自适应语音合成系统，即利用目标发音人少量的录音和文本数据快速构建合成系统，产生目标发音人音色的合成语音。但是这种方法存在以下缺点：由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低，影响了用户的体验感。
技术实现思路
针对上述所显示出来的问题，本方法基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练，最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成。一种自适应语音合成方法，包括以下步骤：利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练；利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到...

【技术保护点】
1.一种自适应语音合成方法，其特征在于，包括以下步骤：/n利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；/n设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；/n利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练；/n利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音。/n

【技术特征摘要】
1.一种自适应语音合成方法，其特征在于，包括以下步骤：
利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；
设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；
利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练；
利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音。

2.根据权利要求1所述自适应语音合成方法，其特征在于，所述设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音，包括：
预先建立空白录音文本库；
获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库；
接收到用户请求录音的指令时，推送M个第一录音文本以供选择，其中，所述第一录音文本为所述录音文本中任一录音文本；
确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本；
基于所述目标录音文本，接收用户的当前录音。

3.根据权利要求1所述自适应语音合成方法，其特征在于，在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前，所述方法还包括：
获取所述当前录音中的每一句语音；
去除所述每一句语音中超过预设时长的静音段；
对所述每一句语音作去噪和去混响的预处理；
检测预处理之后的当前语音是否完整；
若是，则使用所述目标录音文本对应的标注；
否则，提醒用户所述预处理之后的当前语音不满足需求。

4.根据权利要求1所述自适应语音合成方法，其特征在于，所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练，包括：
提取所述预处理之后的当前语音的声学特征参数；
提取目标录音文本内容中的上下文相关联的第一语言学信息；
根据所述声学特征参数和所述第一语言学信息生成训练数据；
利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。

5.根据权利要求1所述自适应语音合成方法，其特征在于，所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音，包括：
获取所述待合成文本的第二语言学信息；
将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数；
根据所述语音特征参数获取静态语音参数；
将所述静态语音参数输入到合成器中进行合成；
合成完毕后输出合成语音。

6.一种自适应语音合成装置，其特征在于，该装置包括：
第一训练模块，用于利用预...

【专利技术属性】
技术研发人员：贺来朋，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人