用于合成语音的方法和装置制造方法及图纸

技术编号:15399200 阅读:56 留言:0更新日期:2017-05-23 11:05
本发明专利技术提供用于合成语音的方法和装置。所述用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及语音合成单元,其利用上述时长预测单元预测出的时长合成上述文本句的语音。

Method and apparatus for synthesizing speech

The present invention provides methods and apparatus for synthesizing speech. The apparatus for speech synthesis includes an input unit, the input text sentence; text analysis unit, the text analysis of the text sentence to obtain phoneme sequences; search unit, the prediction model of long leaf node length of at least one phoneme decision tree lookup the phoneme sequence in time and the leaf nodes of phonemes in long instances are clustered into several classes; the probability calculation unit, the calculation of the at least one phoneme belonging to the leaf nodes in more than one class of each class probability; duration prediction unit, the probability of each class by using the probability calculation unit calculates and the plurality of class center duration prediction of the at least one phoneme length; and speech synthesis unit, which makes use of the duration prediction speech unit predicted long sentence synthesis of the text.

【技术实现步骤摘要】
用于合成语音的方法和装置
本专利技术涉及语音合成技术,具体地,涉及用于合成语音的方法和装置。
技术介绍
目前,基于隐马尔科夫模型的语音合成(HTS,HMM-basedTexttoSpeech)已经广泛应用于语音合成技术。具体地,图4示出了传统的基于隐马尔科夫模型的语音合成系统。如图4所示,在训练阶段,利用语音数据库10和语境数据库20训练隐马尔科夫模型(HMMs),得到时长决策树30。在合成阶段,在步骤405,对步骤401输入的文本句进行文本分析,得到该文本句的音素序列和语境特征序列。然后,在步骤410,基于步骤405中得到的语境特征在时长决策树30中查找与该语境特征对应的音素的叶子节点。然后,在步骤415,将叶子节点的中心时长作为该音素的时长。最后,在步骤420,利用预测出的时长进行语音合成。在上述传统的基于隐马尔科夫模型的语音合成系统中,某个音素的时长是由时长决策树30的某个叶子节点的中心时长,例如高斯分布的均值决定。也就是说,一个叶子节点上的所有音素时长实例由单一的中心时长来表示,由此导致了过平淡节奏的出现。这种平淡的合成语音会在电子书阅读、汽车导航、移动电话等这样的应用中降低用户体验。
技术实现思路
为了改善上述现有技术中存在的利用叶子节点的单一的中心时长生成音素的时长而导致合成语音的节奏过于平淡的问题,本专利技术提出了一种改进合成语音节奏的方法,该方法利用时长决策树的叶子节点上的多中心时长来生成音素的时长。也就是说,本专利技术提供了用于合成语音的方法和装置。具体地,提供了以下技术方案。[1]一种用于合成语音的方法,包括以下步骤:输入文本句;对上述文本句进行文本分析以获得音素序列;在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及利用上述预测出的时长合成上述文本句的语音。本专利技术的上述用于合成语音的方法,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统方法不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。[2]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。本专利技术的上述用于合成语音的方法,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。[3]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。本专利技术的上述用于合成语音的方法,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。[4]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。[5]根据上述[4]所述的方法,其中,上述利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长的步骤包括:将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。本专利技术的上述用于合成语音的方法,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。[6]根据上述[1]~[5]的任一项所述的方法,其中,上述对上述文本句进行文本分析的步骤还获得与上述音素序列对应的语境特征序列,上述在时长决策树中查找上述音素序列中的至少一个音素的叶子节点的步骤包括:利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。[7]根据上述[1]~[6]的任一项所述的方法,其中,上述对上述文本句进行文本分析的步骤还获得与上述音素序列对应的语境特征序列,上述计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率的步骤包括:利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。[8]根据上述[7]所述的方法,其中,上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。[9]根据上述[8]所述的方法,其中,上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。[10]根据上述[9]所述的方法,其中,上述与用于训练上述时长决策树的语境特征不同的语境特征包括对上述用于训练上述时长决策树的语境特征不同的语境特征进行删减和/或增加后得到的语境特征。[11]一种用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及语音合成单元,其利用上述时长预测单元预测出的时长合成上述文本句的语音。本专利技术的上述用于合成语音的装置,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统装置不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。[12]根据上述[11]所述的装置,其中,上述时长预测单元,将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。本专利技术的上述用于合成语音的装置,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。[13]根据上述[11]所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。本专利技术的上述用于合成语音的装置,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。[14]根据上述[11]所述的装置,其中,上述时长预测单元,利用上述计算出的概率、上述多个类的每个本文档来自技高网...
用于合成语音的方法和装置

【技术保护点】
一种用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及语音合成单元;其特征在于,上述装置还包括:概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;上述语音合成单元利用上述时长预测单元预测出的时长合成上述文本句的语音。

【技术特征摘要】
1.一种用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及语音合成单元;其特征在于,上述装置还包括:概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;上述语音合成单元利用上述时长预测单元预测出的时长合成上述文本句的语音。2.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。3.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。4.根据权利要求1所述的装置,其中,上述时长预测单元,利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。5.根据权利要求4所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。6.根据权利要求1所述的装置,其中,上述文本...

【专利技术属性】
技术研发人员:康永国李健
申请(专利权)人:株式会社东芝
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1