An embodiment of the invention provides a speech synthesis method and device and a device for speech synthesis, in which the method specifically includes receiving the pending text, and determining the turbidity of the corresponding state or frame of the unsynthesized text in the process of the speech synthesis of the synthesized text, to obtain the turbidity of the corresponding state or frame of the pending text according to the spectrum parameters. According to the result of turbidity determination, the synthesized speech corresponding to the text to be synthesized is obtained. The embodiment of the invention can effectively improve the problem of noise in the synthetic speech caused by the error of the turbidity sound judgment, and then improve the hearing and sound quality of the synthetic speech.
【技术实现步骤摘要】
语音合成方法和装置、用于语音合成的装置
本专利技术涉及语音合成
,特别是涉及一种语音合成方法和装置、以及一种用于语音合成的装置。
技术介绍
语音合成技术又称文语转换(TTS,Text-to-Speech)技术,即将文字转换为语音的技术,该技术赋予计算机像人一样自如说话的能力,使用户与机器之间的信息沟通更加舒服自然。目前,基于隐马尔可夫模型(HMM,HiddenMarkovModel)的语音合成(HTS,HMM-basedSpeechSynthesisSystem)得到广泛的重视和应用。HTS的基本思路是:对语音信号进行参数化分解,并建立各声学参数对应的HMM模型,合成时利用训练得到的HMM模型预测待合成文本的声学参数,这些声学参数被输入至参数合成器,最终得到合成语音。在语音合成技术中,通常会涉及到清浊音判定问题。现有的清浊音判定方案通常在基频维度进行清浊音判定,相应的清浊音判定过程可以包括:在基频维度上对清浊音进行统计建模,得到的基频参数模型中可以包括:浊音权重参数,并依据该浊音权重参数判定状态的清浊性,例如,若该浊音权重参数超过0.5,则该状态被判定为浊音,否则,若该浊音权重参数未超过0.5,则该状态被判定为清音。然而,在实际应用中现有的清浊音判定方案容易出现清浊音判定错误的问题。而当清浊音判定错误时,合成语音中会出现杂音,尤其地当浊音被判定为清音时,由于浊音的能量较大,会产生明显的噪声,影响合成语音的听感。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音合成方法、语音合成装置、及用于语音合成 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。2.根据权利要求1所述的方法,其特征在于,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。3.根据权利要求2所述的方法,其特征在于,通过如下步骤获取所述目标频谱叶节点的清浊性概率:从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。5.根据权利要求4所述的方法,其特征在于,通过如下步骤确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据:依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。6.根据权利要求1所述的方法,其特征在于,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:在所述待合成文本的语音合成...
【专利技术属性】
技术研发人员:孟凡博,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。