The invention discloses a method of correcting the wrong tone in the synthetic sound, including step 1) to obtain the phoneme and context information in the text to be synthesized; step 2) based on the parameter statistics synthesis model library, the parameter generation algorithm based on the parameter statistical model is used to generate the base frequency sequence parameters including the length of the phoneme time and the corresponding tone. Step 3) on the base frequency characteristic value sequence corresponding to each syllable, based on the error tone pattern library, the error tone detection algorithm is used to determine whether the tone of the basic frequency characteristic value sequence is consistent with the syllable tone, and if it is not consistent, it is judged as the wrong tone; step 4) the basic frequency characteristic of the wrong tone. The value sequence, based on the correct tone pattern library, uses the tone correction algorithm to generate the correct base frequency eigenvalue sequence for the syllable tone; step 5) makes the speech synthesis and outputs the final synthetic speech.
【技术实现步骤摘要】
一种修正合成音中错误声调的方法
本专利技术属于一种修正合成音中错误声调的方法。
技术介绍
基于参数统计模型的语音合成技术已成为目前轻量级、快速更新部署的首选技术方案。在采用参数统计模型进行带调语言(比如中文)的语音合成时,如果生成的基频特征不准确,那么合成语音的声调将是不准确的,语音听起来很别扭。这种情况经常发生在待合成文本的上下文和训练数据严重不匹配的情况下。因为参数统计模型主要是针对不同上下文的基本声学单元(比如音素)进行建模,不同上下文的声学单元具有不同的模型参数。由于不同上下文的声学单元太多,而训练数据有限,导致训练出来的某些模型参数不可靠。尽管为了避免此问题,在建模过程中采用决策数据聚类方法来允许不同上下文声学单元的模型共享数据,但是训练数据仍然不可能覆盖所有的上下文情况。因此,在实际应用中,如果输入的待合成文本的上下文是训练数据完全没有覆盖到的,那么生成的基频参数即有可能出现偏差甚至完全错误,从而导致合成的语音声调有问题,听起来很别扭。在中文合成中,这将会影响到语音的可懂度,甚至产生完全错误的语义理解。
技术实现思路
本专利针对中文语音合成系统,公开一套自动修正合成音中错误声调的方法。本专利技术解决上述技术问题所采取的技术方案如下:一种修正合成音中错误声调的方法,其特征在于,包括:步骤1)获取待合成文本中的音素及上下文信息;步骤2)基于参数统计合成模型库,采用基于参数统计模型的参数生成算法,生成包括音素时长和对应声调的基频值序列参数;步骤3)对所生成的每个音节对应的基频特征值序列,基于错误声调模式库,采用错误声调检测算法来判断该基频特征值序列所表示 ...
【技术保护点】
1.一种修正合成音中错误声调的方法,其特征在于,包括:步骤1)获取待合成文本中的音素及上下文信息;步骤2)基于参数统计合成模型库,采用基于参数统计模型的参数生成算法,生成包括音素时长和对应声调的基频值序列参数;步骤3)对所生成的每个音节对应的基频特征值序列,基于错误声调模式库,采用错误声调检测算法来判断该基频特征值序列所表示的声调是否和该音节声调相一致,若不一致则判断为错误声调;;步骤4)对于错误声调的基频特征值序列,基于正确声调模式库,采用声调修正算法生成对应该音节声调的正确的基频特征值序列;步骤5)进行语音合成,并输出最终的合成语音。
【技术特征摘要】
1.一种修正合成音中错误声调的方法,其特征在于,包括:步骤1)获取待合成文本中的音素及上下文信息;步骤2)基于参数统计合成模型库,采用基于参数统计模型的参数生成算法,生成包括音素时长和对应声调的基频值序列参数;步骤3)对所生成的每个音节对应的基频特征值序列,基于错误声调模式库,采用错误声调检测算法来判断该基频特征值序列所表示的声调是否和该音节声调相一致,若不一致则判断为错误声调;;步骤4)对于错误声调的基频特征值序列,基于正确声调模式库,采用声调修正算法生成对应该音节声调的正确的基频特征值序列;步骤5)进行语音合成,并输出最终的合成语音。2.根据权利要求1所述的修正合成音中错误声调的方法,其特征在于,步骤3)中,具体包括:Step1:获取根据参数统计合成模型库生成的每个音节对应的基频值序列;根据时长模型获取每个音节的时长,然后根据音节时长切分基频值序列,得到每个音节对应的基频值序列;Step2:根据待合成文本中对应音节的声调和生成的该音节基频值序列以及时长、上下文信息参数判断该基频值序列是否正确;如果不正确,则对基频值序列及其他参数进行修正处理;否则,直接送去合成语音。3.根据权利要求2所述修正合成音中错误声调的方法,其特征在于,步骤3)中,所述的判断基频值序列是否正确,包括:计算给定基频值序列情况下对应音节所标称声调的后验概率;如果后验概率大于给定阈值T1,则判定该基频值序列正确;否则判定该基频值序列错误。4.根据权利要求3所述修正合成音中错误声调的方法,其特征在于,步骤3)中,所述的判断基频值序列是否正确,包括:Step2.1:对基频值序列进行平滑处理,使得每个音节只对应一个连续的非零基频值序列,并且做均值方差归一化;Step2.2:对平滑且归一化后的基频值序列进行分段,具体段数根据实际情况确定,特定地,可平均分为7段,计算中间5段每段的基频平均值;Step2.3:组成26维特征的特征向量,具体包括:每个音节的分段平均基频特征值及一阶和二阶差分(5×3维),当前音节和前后音节的声调(3维),当前音节和前后音节的编号(3维),当前音节有声(voiced)音素的时长(1维),原始非零基频长度(1维),原始最长基频值序列长度(1维),平滑后基频值序列的最大值和最小值的差值(1维),平滑后基频值序列的方差(1维);Step2.4:把上述26维特征送入预...
【专利技术属性】
技术研发人员:王欢良,代大明,石强,吴科苇,张李,
申请(专利权)人:苏州奇梦者网络科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。