语音合成方法和装置、用于语音合成的装置制造方法及图纸

技术编号:18577578 阅读:22 留言:0更新日期:2018-08-01 12:42
本发明专利技术实施例提供了一种语音合成方法和装置、用于语音合成的装置,其中的方法具体包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。本发明专利技术实施例能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。

Speech synthesis method and device, and device for speech synthesis

An embodiment of the invention provides a speech synthesis method and device and a device for speech synthesis, in which the method specifically includes receiving the pending text, and determining the turbidity of the corresponding state or frame of the unsynthesized text in the process of the speech synthesis of the synthesized text, to obtain the turbidity of the corresponding state or frame of the pending text according to the spectrum parameters. According to the result of turbidity determination, the synthesized speech corresponding to the text to be synthesized is obtained. The embodiment of the invention can effectively improve the problem of noise in the synthetic speech caused by the error of the turbidity sound judgment, and then improve the hearing and sound quality of the synthetic speech.

【技术实现步骤摘要】
语音合成方法和装置、用于语音合成的装置
本专利技术涉及语音合成
,特别是涉及一种语音合成方法和装置、以及一种用于语音合成的装置。
技术介绍
语音合成技术又称文语转换(TTS,Text-to-Speech)技术,即将文字转换为语音的技术,该技术赋予计算机像人一样自如说话的能力,使用户与机器之间的信息沟通更加舒服自然。目前,基于隐马尔可夫模型(HMM,HiddenMarkovModel)的语音合成(HTS,HMM-basedSpeechSynthesisSystem)得到广泛的重视和应用。HTS的基本思路是:对语音信号进行参数化分解,并建立各声学参数对应的HMM模型,合成时利用训练得到的HMM模型预测待合成文本的声学参数,这些声学参数被输入至参数合成器,最终得到合成语音。在语音合成技术中,通常会涉及到清浊音判定问题。现有的清浊音判定方案通常在基频维度进行清浊音判定,相应的清浊音判定过程可以包括:在基频维度上对清浊音进行统计建模,得到的基频参数模型中可以包括:浊音权重参数,并依据该浊音权重参数判定状态的清浊性,例如,若该浊音权重参数超过0.5,则该状态被判定为浊音,否则,若该浊音权重参数未超过0.5,则该状态被判定为清音。然而,在实际应用中现有的清浊音判定方案容易出现清浊音判定错误的问题。而当清浊音判定错误时,合成语音中会出现杂音,尤其地当浊音被判定为清音时,由于浊音的能量较大,会产生明显的噪声,影响合成语音的听感。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音合成方法、语音合成装置、及用于语音合成的装置,本专利技术实施例能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。为了解决上述问题,本专利技术公开了一种语音合成方法,包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。可选地,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。可选地,通过如下步骤获取所述目标频谱叶节点的清浊性概率:从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。可选地,所述方法还包括:依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。可选地,通过如下步骤确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据:依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。可选地,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。可选地,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤,包括:依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。可选地,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤,包括:依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。另一方面,本专利技术公开了一种语音合成装置,所述装置包括:文本接收模块,用于接收待合成文本;清浊性判定模块,用于在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;以及合成语音获取模块,用于依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。可选地,所述清浊性判定模块包括:目标频谱叶节点获取子模块,用于在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;清浊性判定子模块,用于依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。可选地,所述装置还包括:清浊性概率获取模块,用于从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。可选地,所述装置还包括:模型获取模块,用于依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;概率确定模块,用于依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。可选地,所述装置还包括:训练录音数据确定模块,用于确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据;所述训练录音数据确定模块包括:状态判定子模块,用于依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;目标帧获取子模块,用于依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。可选地,所述清浊性判定模块包括:清浊性分类子模块,用于在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。可选地,所述合成语音获取模块包括:第一基频获取子模块,用于依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;帧级参数生成子模块,用于依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;第一语音合成子模块,用于依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。可选地,所述合成语音获取模块包括:第二基频获取子模块,用于依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;第二语音合成子模块,用于依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。又一方面,本本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。2.根据权利要求1所述的方法,其特征在于,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。3.根据权利要求2所述的方法,其特征在于,通过如下步骤获取所述目标频谱叶节点的清浊性概率:从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。5.根据权利要求4所述的方法,其特征在于,通过如下步骤确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据:依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。6.根据权利要求1所述的方法,其特征在于,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:在所述待合成文本的语音合成...

【专利技术属性】
技术研发人员:孟凡博
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1