语音合成方法和装置制造方法及图纸

技术编号:12623015 阅读:84 留言:0更新日期:2015-12-31 16:06
本发明专利技术提出一种语音合成方法和装置,该语音合成方法包括:在预先建立的模型中,获取备选单元的初始模型参数,并根据初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值;如果所述最优单元序列的代价值不满足预设条件,则在所述模型中,获取备选单元的更新后的模型参数,所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数,并根据所述更新后的模型参数重新确定最优单元序列;将代价值满足预设条件的最优单元序列中的语音单元,确定为要拼接的语音单元,以便对所述要拼接的语音单元进行拼接,得到合成语音。该方法能够提高选择的语音单元的准确性,从而使得合成语音更加自然和具有更优良的表现力。

【技术实现步骤摘要】
语音合成方法和装置
本专利技术涉及语音处理
,尤其涉及一种语音合成方法和装置。
技术介绍
随着移动时代的到来,人们对语音合成的需求日益增长,例如小说朗读、导航语音等。并且人们对于合成语音已经不仅仅满足于其清晰度和可懂度,还要求合成的语音具有更好的自然度和表现力。语音合成的流程包括:预处理、分词、词性标注、注音、韵律层级预测、声学参数生成和语音生成,其中,语音生成时可以是利用声学参数通过声码器合成语音,或者,也可以是根据声学参数从语料库中选择最优单元进行拼接。对于拼接合成来说,如何从语料库中选择最优单元序列就会影响合成语音效果。现有技术中,是将备选空间中似然值最大的路径确定为最优单元序列,但是这种选择方式会存在偏差,尤其是对平均似然值较低的序列,从而使得合成语音在自然度和表现力等方面存在问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种语音合成方法,该方法可以提高选择的语音单元的准确性,从而使得合成语音更加自然和具有更优良的表现力。本专利技术的另一个目的在于提出一种语音合成装置。为达到上述目的,本专利技术第一方面实施例提出的语音合成方法,包括:在预先建立的模型中,获取备选单元的初始模型参数,并根据所述初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值;如果所述最优单元序列的代价值不满足预设条件,则在所述模型中,获取备选单元的更新后的模型参数,所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数,并根据所述更新后的模型参数重新确定最优单元序列;将代价值满足预设条件的最优单元序列中的语音单元,确定为要拼接的语音单元,以便对所述要拼接的语音单元进行拼接,得到合成语音。可选的,还包括:对要合成的文本进行文本分析,得到上下文特征信息;在所述模型中,根据所述上下文特征信息获取目标单元的初始模型参数,以及获取语料库中连接单元的初始模型参数;根据目标单元的初始模型参数和连接单元的初始模型参数,对连接单元进行预选,以确定出备选单元。可选的,还包括:当重新确定的最优单元序列的代价值都不满足预设条件时,在所述模型中,重新获取目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数;根据目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数,对连接单元进行预选,以确定出备选单元。可选的,还包括:在训练过程中对语音进行声学特征提取,得到声学特征信息;对所述声学特征信息进行韵律层级分解,得到分解后的分量;根据分解后的分量进行建模,得到所述模型。可选的,所述对所述声学特征信息进行韵律层级分解,包括:对所述声学特征信息的基频进行分解。可选的,所述对所述声学特征信息进行韵律层级分解,包括:采用小波变换或DCT变换,对所述声学特征信息进行韵律层级分解。可选的,所述最优单元序列是整体似然值最大的单元序列,所述最优单元序列的代价值是最优单元序列的平均代价值。可选的,还包括:当所述最优单元序列的平均代价值小于预设的阈值时,确定所述最优单元序列的代价值不满足预设条件。本专利技术第一方面实施例提出的语音合成方法,通过在根据初始模型参数确定的最优单元序列不满足预设条件时,获取韵律层级低的一个或多个低级分量的模型参数,并根据新的模型参数重新确定最优单元序列直至满足预设条件,可以提高选择的语音单元的准确性,从而使得合成语音更加自然和具有更优良的表现力。为达到上述目的,本专利技术第二方面实施例提出的语音合成装置,包括:第一获取模块,用于在预先建立的模型中,获取备选单元的初始模型参数,并根据所述初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值;更新模块,用于如果所述最优单元序列的代价值不满足预设条件,则在所述模型中,获取备选单元的更新后的模型参数,所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数,并根据所述更新后的模型参数重新确定最优单元序列;确定模块,用于将代价值满足预设条件的最优单元序列中的语音单元,确定为要拼接的语音单元,以便对所述要拼接的语音单元进行拼接,得到合成语音。可选的,还包括:文本分析模块,用于对要合成的文本进行文本分析,得到上下文特征信息;第三获取模块,用于在所述模型中,根据所述上下文特征信息获取目标单元的初始模型参数,以及获取语料库中连接单元的初始模型参数;第一预选模块,用于根据目标单元的初始模型参数和连接单元的初始模型参数,对连接单元进行预选,以确定出备选单元。可选的,还包括:第四获取模块,用于当重新确定的最优单元序列的代价值都不满足预设条件时,在所述模型中,重新获取目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数;第二预选模块,用于根据目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数,对连接单元进行预选,以确定出备选单元。可选的,还包括:提取模块,用于在训练过程中对语音进行声学特征提取,得到声学特征信息;分解模块,用于对所述声学特征信息进行韵律层级分解,得到分解后的分量;建模模块,用于根据分解后的分量进行建模,得到所述模型。可选的,所述分解模块具体用于:对所述声学特征信息的基频进行分解。可选的,所述分解模块具体用于:采用小波变换或DCT变换,对所述声学特征信息进行韵律层级分解。可选的,所述最优单元序列是整体似然值最大的单元序列,所述最优单元序列的代价值是最优单元序列的平均代价值,还包括:判断模块,用于当所述最优单元序列的平均代价值小于预设的阈值时,确定所述最优单元序列的代价值不满足预设条件。本专利技术第二方面实施例提出的语音合成装置,通过在根据初始模型参数确定的最优单元序列不满足预设条件时,获取韵律层级低的一个或多个低级分量的模型参数,并根据新的模型参数重新确定最优单元序列直至满足预设条件,可以提高选择的语音单元的准确性,从而使得合成语音更加自然和具有更优良的表现力。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的语音合成方法的流程示意图;图2是本专利技术另一实施例提出的语音合成方法的流程示意图;图3是本专利技术另一实施例提出的语音合成方法的流程示意图;图4是本专利技术另一实施例提出的语音合成装置的结构示意图;图5是本专利技术另一实施例提出的语音合成装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的语音合成方法的流程示意图,该方法包括:S11:在预先建立的模型中,获取备选单元的初始模型参数,并根据所述初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值。其中,可以在训练过程中根据文本和对应的语音进行训练,得到模型。模型中可以记录上下文特征信息与模型参数之间的映射关系,以根据上下文特本文档来自技高网...
语音合成方法和装置

【技术保护点】
一种语音合成方法,其特征在于,包括:在预先建立的模型中,获取备选单元的初始模型参数,并根据所述初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值;如果所述最优单元序列的代价值不满足预设条件,则在所述模型中,获取备选单元的更新后的模型参数,所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数,并根据所述更新后的模型参数重新确定最优单元序列;将代价值满足预设条件的最优单元序列中的语音单元,确定为要拼接的语音单元,以便对所述要拼接的语音单元进行拼接,得到合成语音。

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:在预先建立的模型中,获取备选单元的初始模型参数,并根据所述初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值,其中,所述初始模型参数是指韵律层级最高的模型参数;如果所述最优单元序列的代价值不满足预设条件,则在所述模型中,获取备选单元的更新后的模型参数,所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数,并根据所述更新后的模型参数重新确定最优单元序列;将代价值满足预设条件的最优单元序列中的语音单元,确定为要拼接的语音单元,以便对所述要拼接的语音单元进行拼接,得到合成语音。2.根据权利要求1所述的方法,其特征在于,还包括:对要合成的文本进行文本分析,得到上下文特征信息;在所述模型中,根据所述上下文特征信息获取目标单元的初始模型参数,以及获取语料库中连接单元的初始模型参数;根据目标单元的初始模型参数和连接单元的初始模型参数,对连接单元进行预选,以确定出备选单元。3.根据权利要求2所述的方法,其特征在于,还包括:当重新确定的最优单元序列的代价值都不满足预设条件时,在所述模型中,重新获取目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数;根据目标单元的所述更新后的模型参数和连接单元的所述更新后的模型参数,对连接单元进行预选,以确定出备选单元。4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:在训练过程中对语音进行声学特征提取,得到声学特征信息;对所述声学特征信息进行韵律层级分解,得到分解后的分量;根据分解后的分量进行建模,得到所述模型。5.根据权利要求4所述的方法,其特征在于,所述对所述声学特征信息进行韵律层级分解,包括:对所述声学特征信息的基频进行分解。6.根据权利要求4所述的方法,其特征在于,所述对所述声学特征信息进行韵律层级分解,包括:采用小波变换或DCT变换,对所述声学特征信息进行韵律层级分解。7.根据权利要求1-3任一项所述的方法,其特征在于,所述最优单元序列是整体似然值最大的单元序列,所述最优单元序列的代价值是最优单元序列的平均代价值。8.根据权利要求7所述的方法,其特征在于,还包括:当所述最优单元序列的平均代价值小于预设的阈值时,确定所述最优单元序列的代价值不满足预设条件。9.一种语音合成装置,其特征在于,包括:第一获取模块,用于在预先...

【专利技术属性】
技术研发人员:盖于涛李秀林
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1