具有谱稳定边界的跨音节中文语音合成基元构建方法技术

技术编号:10965190 阅读:151 留言:0更新日期:2015-01-28 17:27
本发明专利技术公开了一种具有谱稳定边界的跨音节中文语音合成基元构建方法,属于语音处理领域。本发明专利技术对所述语音流数据进行切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分,从而获得跨音节基元。本方法既能保留音节内及音节间的协同发音,又避免基元过短导致大量的拼接出现,从而有效提高合成语音的自然度和连贯性,且不会影响合成语音的音质表现。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,属于语音处理领域。本专利技术对所述语音流数据进行切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分,从而获得跨音节基元。本方法既能保留音节内及音节间的协同发音,又避免基元过短导致大量的拼接出现,从而有效提高合成语音的自然度和连贯性,且不会影响合成语音的音质表现。【专利说明】
本专利技术涉及一种中文语音合成基元的定义及构建方法,具体地涉及具有谱稳定边 界的跨音节中文语音合成基元的自动化构建方法。属于语音处理领域。
技术介绍
语音合成基元的选取是语音合成中至关重要的环节。合理的选择语音基元,构建 基元数据库,对语音合成具有重要意义。基元的选择没有统一、绝对的评价标准,它会受到 语种、应用领域、训练数据量以及存储要求等条件的限制。常见的语音合成基元有音素、双 音素、三音素、半音节、音节、词等(见Taylor,Paul.Text-to-speechsynthesis.Cambridge UniversityPress, 2009)。这些合成基元的选取,是基于语言及语音学知识的,因此基元的 边界往往选在音素或音节之间。然而,对于一段连续语音,相邻的音素或音节间往往存在耦 合现象,即当前音素或音节的发音受到它前后音素或音节发音的影响。这种现象在语音学 中称为协同发音(周迅溢,王蓓,杨玉芳,李晓庆,"语句中协同发音对音节知觉的影响",心 理学报,2003, 35 (3) :340-344),它保证了连续语音的自然度与连贯性。 汉语是一种单音节带调语音,包含23个声母和24个韵母。每个音节由一个声母和 一个韵母组成,个别音节没有声母部分(零声母),韵母分为单韵母,复韵母,前鼻韵母和后 鼻韵母。由不同的声韵母组成的汉语无调音节约为410个,如果考虑每种音节的五个声调: 轻声、阴平、阳平、上声、去声,则共有约1300个带调音节(杨行峻,迟惠生等,《语音信号数 字处理》,电子工业出版社,1995年)。在一段连续的汉语语音中存在大量的音节内及音节 间的协同发音现象。目前的中文语音合成系统可以分为两个主流方向:基于拼接的单元挑 选合成方法和基于隐马尔科夫模型(HMM)的统计参数语音合成方法(Zen,Heiga,Keiichi Tokuda,andAlanW.Black."Statisticalparametricspeechsynthesis."Speech Communication51. 11(2009) : 1039-1064)。对于前者,合成基元通常为双音子,它一般包含 两个音素,其边界在这两个音素中的稳定段,虽然这种方法也考虑到了协同发音的影响,但 双音子的结构导致合成语音中出现大量的拼接点,不仅增加了算法的复杂度,且容易导致 衔接不自然;对于后者,通常选取音节作为合成基元,这虽然保证了音节内部的连贯,但音 节间的协同发音被破坏。因此,需要构建一种新的合成基元,使其既能保留音节内及音节间 的协同发音,又避免基元过短导致大量的拼接出现,从而提高合成语音的自然度和连贯性。
技术实现思路
为了构建一种能同时保留音节内及音节间协同发音的合成基元,本专利技术提出一种 ,包括如下步骤:获取语音流数据,对 其进行音节标注,并对所述语音流数据进行切分从而获得跨音节基元,切分基元时从一个 音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元 由两部分组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及 之前的部分; 如果该语音流数据的前后均为静音段,则第一个跨音节基元为静音段加上第一个 首节韵母的中心兀首及其之如的部分;最后一个跨首节基兀为最后一个首节韵母的中心兀 音及其之后的部分加上静音段; 所述中心元音指一个音节韵母部分中发音最稳定,持续时间最长的部分。 通常所述中心元音是音节中可标注声调的元音。 进一步地,切分所述跨音节基元时识别中心元音的方法,包括如下步骤: Sl:分帧:首先对一段数字化的语音流数据进行加窗分帧处理; 所述的语音流数据应至少包含一个音节,帧移应小于等于帧长L,分帧后得到语音 信号序列的第n帧记为xn(i),其中1彡n彡N,n为帧编号,N为该语音流数据分帧后获得 的帧数,1彡i彡L; S2 :提取参数:对每帧语音信号提取其频谱参数,记第n帧语音的第i个频谱参数 为yn(i),1彡i彡P,1彡n彡N,P是频率参数的阶数; S3:以该语音流数据的音节标注信息为参考,在每个音节中,根据谱稳定准则,迭 代计算出每个音节的中心元音位置,即获得基元边界,方法如下: (1)获得每帧语音信号的频谱参数yn⑴的转移率Cn⑴: 【权利要求】1. ,其特征在于,包括如下步骤: 获取语音流数据,对其进行音节标注,并对所述语音流数据进行切分从而获得跨音节基元, 切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分 所得的跨音节基元由两部分组成:前一音节韵母的中心元音及其之后的部分,当前音节韵 母的中心元音以及之前的部分; 如果该语音流数据的前后均为静音段,则第一个跨音节基元为静音段加上第一个音节 韵母的中心兀首及其之如的部分;最后一个跨首节基兀为最后一个首节韵母的中心兀首及 其之后的部分加上静音段。2. 根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方 法,其特征在于,所述中心元音指一个音节韵母部分中发音最稳定,持续时间最长的部分。3. 根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方 法,其特征在于,所述中心元音是音节中可标注声调的元音。4. 根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方 法,其特征在于,切分所述跨音节基元时识别中心元音的方法,包括如下步骤: 51 :分帧:首先对一段数字化的语音流数据进行加窗分帧处理; 所述的语音流数据应至少包含一个音节,帧移应小于等于帧长L,分帧后得到语音信号 序列的第η帧记为xn(i),其中1彡η彡Ν,η为帧编号,N为该语音流数据分帧后获得的帧 数,1彡i彡L; 52 :提取参数:对每帧语音信号提取其频谱参数,记第η帧语音的第i个频谱参数为 yn(i),1彡i彡P,1彡η彡N,P是频率参数的阶数; 53 :以该语音流数据的音节标注信息为参考,在每个音节中,根据谱稳定准则,迭代计 算出每个音节的中心元音位置,即获得基元边界,方法如下: (1)获得每帧语音信号的频谱参数7"(1)的转移率^(1):其中1彡i彡P,m为窗长控制系数,窗长为2Μ+1,设定的M的初始值应远小于帧数N; (2) 将第η帧语音信号的所有P阶频率参数yn(i)的转移率cn(i)的平方和,定义为第η帧的谱特征转移率s(η),从而获得每帧语音信号的谱特征转移率s(η):(3) 按照如下方法检测谱特征转移率s(n)在时间窗内的局部最小值点: 当1彡η彡M时,在时间窗内检测局部最小值点; 当M〈n彡N-M时,在时间窗内检测局部最小值点; 当N-M〈n彡N本文档来自技高网
...

【技术保护点】
具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,包括如下步骤:获取语音流数据,对其进行音节标注,并对所述语音流数据进行切分从而获得跨音节基元,切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两部分组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分; 如果该语音流数据的前后均为静音段,则第一个跨音节基元为静音段加上第一个音节韵母的中心元音及其之前的部分;最后一个跨音节基元为最后一个音节韵母的中心元音及其之后的部分加上静音段。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢湘焦祎姗
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利