用于中文语音合成的连音处理装置制造方法及图纸

技术编号:3047526 阅读:196 留言:0更新日期:2012-04-11 18:40
通过分析字串中相邻音节的连音情形,本发明专利技术可得到一些前音节会随着后音节的起始音状态和声调不同而不同的连音变化规则。利用这些变化规则,建立一个处理连音的CV-VC(VV)连音处理装置。通过前后音节辅音与元音的组合关系,找出VC(VV)连音段,并在前后音节间做波形重叠累加运算,使其在合成连续语音时达到十分自然流畅的效果。实验结果显示,使用本发明专利技术的CV、VC(VV)连音装置可以得出自然的中文连续合成语音。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种用于中文语音合成的连音处理装置,特别涉及一种用于在中文语音合成中获得从一音节到下一个音节之间的平滑过渡的连音处理装置。在中文语音合成中,为使一系列音节的发音更加流利和平滑而平滑相邻音节之间的连接的处理被称为连音处理。为了获得从一个字串的一个音节到该字串的随后一个音节之间的平滑过渡,需要把构成前一音节的部分音素与构成后一音节的部分音素相重叠的连音处理。图3是人对“中文”这个词的发音的宽带频谱。从图3明显可以看出有连音现象。但是,常规的中文语音合成系统大多未考虑连音处理,而只是简单地连接字串“中文”的两个音节的相邻音素,如图4所示。因此,这造成不自然的合成语音。另外,用于常规中文语音合成系统中的连音处理技术是在时域中对字串的连音段进行模拟,也就是说,首先从大量连音段录音语音数据中搜索最佳的连音段。然后,该最佳连音段被插入前一音节和后一音节之间。上述处理的关键点在于最佳连音段确定和最适从连音段录音语音数据中对该最佳连音段的搜索。在此包含中国台湾第九届计算语言学研讨会论文集(1996)中名为“中文连音二字词的语音合成”的论文以供参考。图5是上述常规中文语音合成系统的示意系统方框图。参照图5,100是由操作者输入要合成的拼音文句的拼音文句输入单元。110是用于存储大量字串录音语音数据的字串存储单元。180是用于存储单音录音数据的单音存储单元。120是字串搜索单元,用于根据输入的拼音文句,从字串存储单元110中搜索要被进行连音处理的字串,并且分析该搜索的字串以确定连音段。130是用于搜索该字串的连音段的中央位置的中央部位搜索单元。140是用于估算连音段的音素时间长度的估算单元。150是前段音节合成单元,用于根据输入的拼音文句在单音存储单元180中搜索前段音节的单音录音数据,并且用于合成该搜索的单音录音数据。160是用于把从前段音节合成单元150输出的合成语音数据与该连音段做合成的连音段合成单元。170是后段音节合成单元,用于根据输出拼音文句在单音存储单元180中搜索单音录音数据,并且用于把从连音段合成单元160输出的合成语音数据与搜索的后音节相合成。190是用于输出以语音方式输出的合成语音数据的合成语音输出单元。由图5可知,上述常规中文语音合成系统从字串存储单元110搜索最佳连音段,并从单音存储单元180搜索单音录音数据,并且把它们合成以改善合成语音输出的逼真度(Naturalness)和理解度(Comprehensibility)。例如,如果想要合成“中文”这个字串,这是一个要受到连音处理的字串,用图5中所示的系统对其进行合成,对应于字串“中文”的拼音文句首先被操作者通过输入单元100输入。然后,在该字串存储单元110中搜索对应于字串“中文”的字串录音数据。假设,在字串存储单元110中有字串“中文”的字串录音数据,则字串搜索单元120从字串存储单元110中搜索字串“中文”的字串录音数据。分析该搜索的字串录音数据以确定字串“中文”的连音段。在中央部位搜索单元130估算出字串“中文”的连音段的中央位置。在估算单元140中估算出字串“中文”的连音段的音素时间长度。前段音节合成单元150从单音存储单元180中搜索对应于“中”字的单音节语音数据。连音段合成单元160把对应于“中”字的所搜索的单音节录音数据与该连音段相合成。接着,后段音节合成单元170从单音存储单元180中搜索对应于“文”字的单音录音数据,并把从连音段合成单元160输出的合成语音数据与对应于“文”字的搜索的单音录音数据相合成。最后,从合成语音输出单元190以语音方式输出所得的合成语音数据。然而,如果在字串存储单元110中没有存储对应于字串“中文”的字串录音数据,则根据字串“中文”的前一音节的元音(ㄨㄥ)和字串“中文”的后一音节的起始音(ㄨㄣ)找出最近似的连音段,例如,“通问”(ㄊㄨㄥㄨㄣ),并依照上述方法做合成,结果会合成出很不自然的语音。另外,上述系统需要约55MB字节的存储空间来存储大量字串录音数据,因此这消耗了宝贵的存储空间。并且,录音数据被用作为合成的基本单元,因此不能改变频率和音长,而且录音数据的搜寻与合成也十分费时。相应地,上述现有技术具有如下缺点1.必须存储大量的单音节录音数据和字串录音数据。2.如果合成字串录音数据不包含在字串存储单音中,则不能合成出自然的语音。3.由于采用录音数据,因此改变音长、韵律。4.录音数据的搜索过于费时。因此,本专利技术的一个基本目的是提供一种用于在中文语音合成中从一个音节到后一音节的平滑过渡的连音处理装置,该连音处理装置可以克服与上述现有技术有关的缺点。根据本专利技术,一种用于中文语音合成的连音处理装置,包括用于存储多个中文字串及其对应的拼音记号的词典存储器;用于存储各种中文音节和连音段及中文音节和连音段对应的拼音记号的音调数据、所述各种中文音节和连音段的辅音和元音的起始点及结束点的存储单元;用于根据存储在所述字典存储器中的字典分析要被合成的输入的拼音文句,以把该句子分为多个字串的词汇分析单元;用于根据所述存储单元确定来自所述词汇分析单元的字串中哪一个要被进行连音处理,以搜索确定要受到连音处理的所述字串的连音段的音节分析单元;用于把所搜索的搜索连音段插入在所述输入拼音文句中的所述字串的所述音节与产生的合成语音之间的语音合成单元。在上述连音处理装置中,该存储单元最后存储具有中文第一声的409个音节。在上述连音处理装置中,存储在该存储单元中的连音段是中文字串的后一音节的起始音,如图6所定义。本专利技术的具有上述结构用于中文语音合成的CV-VC(VV)连音处理装置首先根据存储在该字典存储器中存储的字典把使用者输入的拼音文句分段。接着,音节分析单元确定需要做连音处理的前后音节。然后,从音节数据存储单元中搜索每个音节的音调数据和辅音、元音的起始点和结束点。最后,语音合成单元估算出用于音长和频率的改变操作的音长和频率,并合成和输出该语音。从下文参照附图结合实施例的具体描述中,本专利技术的上述的和其他的目的和优点将变得更加清楚,在附图中相同的部分由相同的参考标号表示。附图说明图1是根据本专利技术一个优选实施例的用于中文语音合成中的连音处理装置的系统方块图。图2是存储在图1中所示的寄存器单元13中的音节内容的图表。图3是由人所发出的“中文”发音的宽带频谱图。图4是由常规中文语音合成系统所产生的“中文”发音的宽带频谱图。图5是常规中文语音合成系统的系统方块图。图6为示出在优选实施例中用于判断是否一个字串要受到连音处理的后一音节的起始音的种类的图表。图7是在根据本专利技术的优选实施例中对“台湾”字串做连音处理的说明图。下面将参照附图描述根据本专利技术的优选实施例。图1是根据本专利技术的一个优选实施例用于中文语音合成的连音处理装置的系统方块图。参照图1,一输入单元10例如由键盘构成,使得操作者可输入用于语音合成的拼音文句。词汇分析单元11根据存储在字典存储器(存储单元)12中的字典分析该输入句子,在该字典存储器中多个字串和对应的拼音文句被存储,以把该句子分为多个字串,并且标记相邻字串之间的位置。音节分析单元14根据VC(VV)连音段和CV音节的音调数据存储单元15以及VC(VV)连音段和CV音节的标记数据存储单元16确定哪一个字本文档来自技高网...

【技术保护点】
一种用于中文语音合成的的连音处理装置,其中包括:用于存储多个中文字串及其对应的拼音记号的词典存储器;用于存储各种中文音节和连音段及中文音节和连音段对应的拼音记号的音调数据、所述各种中文音节和连音段的辅音和元音的起始点及结束点的存单元 ;用于根据存储在所述字典存储器中的字典分析要被合成的输入的拼音文句,以把该句子分为多个字串的词汇分析单元;用于根据所述存储单元确定来自所述词汇分析单元的字串中哪一个要被进行连音处理,以搜索确定要受到连音处理的所述字串的连音段的音节分 析单元;用于把所搜索的搜索连音段插入在所述输入拼音文句中的所述字串的所述音节与产生的合成语音之间的语音合成单元。

【技术特征摘要】
JP 1998-12-2 342796/981.一种用于中文语音合成的的连音处理装置,其中包括用于存储多个中文字串及其对应的拼音记号的词典存储器;用于存储各种中文音节和连音段及中文音节和连音段对应的拼音记号的音调数据、所述各种中文音节和连音段的辅音和元音的起始点及结束点的存单元;用于根据存储在所述字典存储器中的字典分析要被合成的输入的拼音文句,以把该句子分为多个字串的词汇分析单元;用于根据所述存储单元确定来自所述词汇分析单元的字串中哪一个要被...

【专利技术属性】
技术研发人员:郭俊桔
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1