用于波形拼接语音合成的选音方法和装置制造方法及图纸

技术编号：13323316 阅读：32 留言：0更新日期：2016-07-11 10:08

本发明专利技术提出一种用于波形拼接语音合成的选音方法和装置，该用于波形拼接语音合成的选音方法包括：获取标注信息，所述标注信息是对待合成文本进行前端处理后得到的；获取预先生成的机器学习模型；根据所述标注信息和所述机器学习模型进行机器学习预选，得到候选音子波形片断。该方法能够提高语音合成时的预选效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成
，尤其涉及一种用于波形拼接语音合成的选音方法和装置。
技术介绍
语音合成，又称文语转换(TexttoSpeech)技术，解决的主要问题是如何将文字信息转化为可听的声音信息。在语音合成时，需要先对输入的文本进行前端处理，再进行声学参数预测得到声学参数，最后利用声学参数直接通过声码器合成声音，或者从音库中挑选单元进行波形拼接。相对于声码器合成的声音，基于波形拼接的合成声音有更高的音质，以及更好保持了原发音人的风格。在构建基于波形拼接的语音合成系统过程中，相关技术中，通常是先根据标注信息获取候选音子波形片断，再在候选音子波形片断中进行一系列的预选，包括：时长预选、韵律位置预选、上下文预选、Kullback-Leibler距离(KLD)预选和邻居预选等，之后再从预选得到的波形片断中选择出最优音子波形片断序列，之后根据最优音子波形片断序列拼接合成得到合成语音。相关技术中的上述方案会存在如下问题：(1)各个预选过程相互独立，没有把这些信息综合起来充分考虑，因此难以取得很好的预选效果；(2)上述预选过程需要调整阈值和权重，而调整阈值和权重的工作需要大量的细致的人工工作，容易顾此失彼，针对一个音库调整好阈值和权重后，换一个音库往往需要重新调整这些参数；(3)需要进行多步预选，计算量较大(特别是KLD预选)；(4)该方法的工程实现较为繁琐，涉及到大量参数的维护，...

【技术保护点】
一种用于波形拼接语音合成的选音方法，其特征在于，包括：获取标注信息，所述标注信息是对待合成文本进行前端处理后得到的；获取预先生成的机器学习模型；根据所述标注信息和所述机器学习模型进行机器学习预选，得到候选音子波形片断。

【技术特征摘要】
1.一种用于波形拼接语音合成的选音方法，其特征在于，包括：
获取标注信息，所述标注信息是对待合成文本进行前端处理后得到的；
获取预先生成的机器学习模型；
根据所述标注信息和所述机器学习模型进行机器学习预选，得到候选
音子波形片断。
2.根据权利要求1所述的方法，其特征在于，当所述机器学习模型是音
子树时，所述方法还包括：
获取音子样本的标注信息及音子样本的波形片断，并根据所述音子样
本的标注信息，训练得到HMM，以及，建立HMM与波形片断的对应关系；
对应每个音子，对所述音子对应的HMM进行决策树聚类，得到所述音
子对应的音子树。
3.根据权利要求2所述的方法，其特征在于，所述音子树中，每个非叶
子节点对应一个最优的分裂问题，每个叶子节点关联一个或多个HMM。
4.根据权利要求3所述的方法，其特征在于，所述最优的分裂问题是
使得分裂前后对数似然值增量最大的问题，当分裂前后对数似然增量小于
预设阈值时，停止分裂，其中，所述预设阈值根据MDL准则确定。
5.根据权利要求2所述的方法，其特征在于，所述根据所述标注信息和
所述机器学习模型进行机器学习预选，得到候选音子波形片断，包括：
根据所述待合成文本对应的标注信息，对应每个音子，遍历所述音子
对应的音子树，获取所述音子树的叶子节点关联的HMM；
根据所述HMM与波形片断的对应关系，获取与所述叶子节点关联的HMM

\t对应的波形片断，将所述波形片断确定为得到候选音子波形片断。
6.根据权利要求1所述的方法，其特征在于，还包括：
获取声学参数，所述声学参数是根据所述标注信息进行声学参数预测
后得到的；
根据所述声学参数...

【专利技术属性】
技术研发人员：张辉，李秀林，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人