The present invention provides methods and apparatus for synthesizing speech. The apparatus for speech synthesis includes an input unit, the input text sentence; text analysis unit, the text analysis of the text sentence to obtain phoneme sequences; search unit, the prediction model of long leaf node length of at least one phoneme decision tree lookup the phoneme sequence in time and the leaf nodes of phonemes in long instances are clustered into several classes; the probability calculation unit, the calculation of the at least one phoneme belonging to the leaf nodes in more than one class of each class probability; duration prediction unit, the probability of each class by using the probability calculation unit calculates and the plurality of class center duration prediction of the at least one phoneme length; and speech synthesis unit, which makes use of the duration prediction speech unit predicted long sentence synthesis of the text.
【技术实现步骤摘要】
用于合成语音的方法和装置
本专利技术涉及语音合成技术,具体地,涉及用于合成语音的方法和装置。
技术介绍
目前,基于隐马尔科夫模型的语音合成(HTS,HMM-basedTexttoSpeech)已经广泛应用于语音合成技术。具体地,图4示出了传统的基于隐马尔科夫模型的语音合成系统。如图4所示,在训练阶段,利用语音数据库10和语境数据库20训练隐马尔科夫模型(HMMs),得到时长决策树30。在合成阶段,在步骤405,对步骤401输入的文本句进行文本分析,得到该文本句的音素序列和语境特征序列。然后,在步骤410,基于步骤405中得到的语境特征在时长决策树30中查找与该语境特征对应的音素的叶子节点。然后,在步骤415,将叶子节点的中心时长作为该音素的时长。最后,在步骤420,利用预测出的时长进行语音合成。在上述传统的基于隐马尔科夫模型的语音合成系统中,某个音素的时长是由时长决策树30的某个叶子节点的中心时长,例如高斯分布的均值决定。也就是说,一个叶子节点上的所有音素时长实例由单一的中心时长来表示,由此导致了过平淡节奏的出现。这种平淡的合成语音会在电子书阅读、汽车导航、移动电话等这样的应用中降低用户体验。
技术实现思路
为了改善上述现有技术中存在的利用叶子节点的单一的中心时长生成音素的时长而导致合成语音的节奏过于平淡的问题,本专利技术提出了一种改进合成语音节奏的方法,该方法利用时长决策树的叶子节点上的多中心时长来生成音素的时长。也就是说,本专利技术提供了用于合成语音的方法和装置。具体地,提供了以下技术方案。[1]一种用于合成语音的方法,包括以下步骤:输入文本句;对上述文本 ...
【技术保护点】
一种用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及语音合成单元;其特征在于,上述装置还包括:概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;上述语音合成单元利用上述时长预测单元预测出的时长合成上述文本句的语音。
【技术特征摘要】
1.一种用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及语音合成单元;其特征在于,上述装置还包括:概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;上述语音合成单元利用上述时长预测单元预测出的时长合成上述文本句的语音。2.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。3.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。4.根据权利要求1所述的装置,其中,上述时长预测单元,利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。5.根据权利要求4所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。6.根据权利要求1所述的装置,其中,上述文本...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。