语音合成方法和装置制造方法及图纸

技术编号：12623015 阅读：84 留言：0更新日期：2015-12-31 16:06

本发明专利技术提出一种语音合成方法和装置，该语音合成方法包括：在预先建立的模型中，获取备选单元的初始模型参数，并根据初始模型参数确定最优单元序列，并计算所述最优单元序列的代价值；如果所述最优单元序列的代价值不满足预设条件，则在所述模型中，获取备选单元的更新后的模型参数，所述更新后的模型参数包括：比初始模型参数韵律层级低的一个或多个低级分量的模型参数，并根据所述更新后的模型参数重新确定最优单元序列；将代价值满足预设条件的最优单元序列中的语音单元，确定为要拼接的语音单元，以便对所述要拼接的语音单元进行拼接，得到合成语音。该方法能够提高选择的语音单元的准确性，从而使得合成语音更加自然和具有更优良的表现力。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法和装置
本专利技术涉及语音处理
，尤其涉及一种语音合成方法和装置。
技术介绍
随着移动时代的到来，人们对语音合成的需求日益增长，例如小说朗读、导航语音等。并且人们对于合成语音已经不仅仅满足于其清晰度和可懂度，还要求合成的语音具有更好的自然度和表现力。语音合成的流程包括：预处理、分词、词性标注、注音、韵律层级预测、声学参数生成和语音生成，其中，语音生成时可以是利用声学参数通过声码器合成语音，或者，也可以是根据声学参数从语料库中选择最优单元进行拼接。对于拼接合成来说，如何从语料库中选择最优单元序列就会影响合成语音效果。现有技术中，是将备选空间中似然值最大的路径确定为最优单元序列，但是这种选择方式会存在偏差，尤其是对平均似然值较低的序列，从而使得合成语音在自然度和表现力等方面存在问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种语音合成方法，该方法可以提高选择的语音单元的准确性，从而使得合成语音更加自然和具有更优良的表现力。本专利技术的另一个目的在于提出一种语音合成装置。为达到上述目的，本专利技术第一方面实施例提出的语音合成方法，包括：在预先建立的模型中，获取备选单元的初始模型参数，并根据所述初始模型参数确定最优单元序列，并计算所述最优单元序列的代价值；如果所述最优单元序列的代价值不满足预设条件，则在所述模型中，获取备选单元的更新后的模型参数，所述更新后的模型参数包括：比初始模型参数韵律层级低的一个或多个低级分量的模型参数，并根据所述更新后的模型参数重新确定最优单元序列；将代价值...
语音合成方法和装置

【技术保护点】
一种语音合成方法，其特征在于，包括：在预先建立的模型中，获取备选单元的初始模型参数，并根据所述初始模型参数确定最优单元序列，并计算所述最优单元序列的代价值；如果所述最优单元序列的代价值不满足预设条件，则在所述模型中，获取备选单元的更新后的模型参数，所述更新后的模型参数包括：比初始模型参数韵律层级低的一个或多个低级分量的模型参数，并根据所述更新后的模型参数重新确定最优单元序列；将代价值满足预设条件的最优单元序列中的语音单元，确定为要拼接的语音单元，以便对所述要拼接的语音单元进行拼接，得到合成语音。

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：在预先建立的模型中，获取备选单元的初始模型参数，并根据所述初始模型参数确定最优单元序列，并计算所述最优单元序列的代价值，其中，所述初始模型参数是指韵律层级最高的模型参数；如果所述最优单元序列的代价值不满足预设条件，则在所述模型中，获取备选单元的更新后的模型参数，所述更新后的模型参数包括：比初始模型参数韵律层级低的一个或多个低级分量的模型参数，并根据所述更新后的模型参数重新确定最优单元序列；将代价值满足预设条件的最优单元序列中的语音单元，确定为要拼接的语音单元，以便对所述要拼接的语音单元进行拼接，得到合成语音。2.根据权利要求1所述的方法，其特征在于，还包括：对要合成的文本进行文本分析，得到上下文特征信息；在所述模型中，根据所述上下文特征信息获取目标单元的初始模型参数，以及获取语料库中连接单元的初始模型参数；根据目标单元的初始模型参数和连接单元的初始模型参数，对连接单元进行预选，以确定出备选单元。3.根据权利要求2所述的方法，其特征在于，还包括：当重新确定的最优单元序列的代价值都不满足预设条件时，在所述模型中，重新获取目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数；根据目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数，对连接单元进行预选，以确定出备选单元。4.根据权利要求1-3任一项所述的方法，其特征在于，还包括：在训练过程中对语音进行声学特征提取，得到声学特征信息；对所述声学特征信息进行韵律层级分解，得到分解后的分量；根据分解后的分量进行建模，得到所述模型。5.根据权利要求4所述的方法，其特征在于，所述对所述声学特征信息进行韵律层级分解，包括：对所述声学特征信息的基频进行分解。6.根据权利要求4所述的方法，其特征在于，所述对所述声学特征信息进行韵律层级分解，包括：采用小波变换或DCT变换，对所述声学特征信息进行韵律层级分解。7.根据权利要求1-3任一项所述的方法，其特征在于，所述最优单元序列是整体似然值最大的单元序列，所述最优单元序列的代价值是最优单元序列的平均代价值。8.根据权利要求7所述的方法，其特征在于，还包括：当所述最优单元序列的平均代价值小于预设的阈值时，确定所述最优单元序列的代价值不满足预设条件。9.一种语音合成装置，其特征在于，包括：第一获取模块，用于在预先...

【专利技术属性】
技术研发人员：盖于涛，李秀林，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人