基音波形信号发生设备、基音波形信号发生方法及程序技术

技术编号:3046859 阅读:163 留言:0更新日期:2012-04-11 18:40
计算机对语音数据进行滤波,并根据滤波结果过零的时刻确定基音长度。只要从语音数据的对数倒频谱提取的基音长度与周期图的偏差不超过预定量,就将滤波的通带的中央频率控制为与根据过零时间确定的基音长度的倒数相等的值。接下来,计算机根据滤波结果,将语音数据分割为片断的单元基音,并将各片断的相位和采样数设为常数,以消除基音波动的影响。然后,通过多种方法对获得的基音波形数据进行内插,且将其中谐波成分较少的数据与表示每一片断的原始采样数目及幅度的数据一起输出。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种基音波形信号发生设备、基音波形信号发生方法及程序。下面将根据生成人类语音的过程来说明基音及共振峰。人类语音的生成过程通过振动声带部分,首先生成包含脉冲序列的声音。该脉冲以特定于单词的每一音素的给定周期生成,该周期称为“基音”。脉冲的频谱分布于较宽的频带中,同时在基音的整倍数间隔处排列有相对强的频谱成分。接下来,随着脉冲通过声带,脉冲在由声带和舌头的形状所形成的空间中被滤波。滤波生成了仅强调脉冲中某一频率成分的声音。(即,产生了共振峰。)上面是语音生成过程。在声带生成的脉冲中需强调的频率成分随着声带和舌头移动而改变。如果该变化与单词相联系,则形成了语音。因此在需要语音合成的情况下,如果声带的滤波特性得到模拟,则在理论上可以得到具有带有自然感觉的语音质量的合成语音。由于实际上人类的声带实际上非常复杂,所以对于普通计算机可达到的能力而言,模拟人类声带及其困难。因此要在将声带简化至一定程度的模型的假设下进行人类声带的模拟。进一步,尽管基音在某种程度上可以被看作周期恒定,然而基音易于受到人类感觉或意识的影响,并在现实中轻微波动。用计算机模拟基音的这种变化几乎是不可能的。现有的使用语音的基音及共振峰的方案在实现具有自然真实语音质量的语音合成时非常困难。有一种语音合成方案称为“主体系统”。该方案通过对实际的人类语音的每一音素及基音进行分类,并通过将这些波形以与文本等匹配的方式联结而实现语音合成,从而建立数据库。由于该方案使用了实际的人类语音的波形,所以获得了通过模拟无法得到的自然真实的语音质量。但是,生成的人类语音有相当多样的模式,再加上情绪表达则几近无限。因此,需要存入数据库的波形的数量将变得很庞大。所以需要一种压缩数据库中的数据量的方案。作为压缩数据库中数据量的方案,已经提出了一种方案,在没有代表文本等中需表示的原始音素的波形的情况下,选择一个能够与该音素最近似的音素。因为即使这种方案的实现依然使得数据库的数据量非常大,且该方案通过非自然地联结不应在第一场合使用的音素而合成语音,所以产生了合成的语音因联结质量差而不自然的问题。为此,将一种对要存入数据库的各波形进行压缩的方案用作压缩数据库中的数据量的方案。可以想到的压缩波形的方案是将波形转换为频谱,并除去由于掩蔽效应而令人类难以听到的成分。这种方案用于压缩技术中,如MP3(MPEG 1音频层3)、ATRAC(适应转换声学编码)和AAC(高级音频编码)。但是,前面所述的基音的波动引起一个问题。人类生成的语音的频谱具有相对较强的、以与基音的倒数相等的间隔排列的频谱。如果语音没有基音波动,则上述的使用掩蔽效应的压缩可以有效地完成。但是因为基音随说话者的感情和意识(情绪)而波动,所以在相同的说话者说出具有多个基音的相同词(音素)的情况下,基音间隔并不通常保持恒定。如果以多个基音对人类实际发出的语音进行采样以分析该频谱,则上述相对较强的频谱不会出现在分析结果中,且使用基于该频谱的掩蔽效应的压缩不能保证有效的压缩。为了达到这个目标,根据本专利技术的第一个方面的基音波形信号发生设备的特征为包含滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。基音波形信号发生设备可以进一步包括滤波系数确定装置(102,5),其根据基音信号和语音信号的参考频率确定滤波器的滤波系数,在这种情况下,滤波器可以根据滤波系数确定装置的决定来改变它的滤波系数。相位调整装置可以通过对于所述基音信号的每一单位周期进行语音信号分割而确定每一所述片断,且相位调整装置可以对于每一所述片断进行相移,使相位成为根据通过将所述语音信号相移至不同相位而得到的信号与所述基音信号之间的相关度而得到的相位。相位调整装置可以有相位确定装置(102,8),其对于所述基音信号的每一单位周期进行语音信号分割而确定每一所述片断,且对于每一所述片断,在根据将所述语音信号相移至不同相位而得到的信号与所述基音信号之间的相关度而进行相移后确定相位;和装置(102,9),其将每一所述片断偏移至所述相位确定装置确定的相位,并将每一所述片断的幅度乘以一个常数以改变幅度。该常数是例如这样的值使各片断的幅度的有效值成为共同常数值基音波形信号发生装置可以进一步根据该常数及采样信号的采样数目,生成基音波形信号。相位调整装置可以以这样的方式将语音信号分割为片断使得用于所述滤波器提取的基音信号的时刻实质上变为0的点成为所述片断的起点。根据本专利技术的第二个方面的基音波形信号发生设备的特征为语音的基音被确定(102,7);根据确定的基音的值,语音信号被分割为包含语音信号的单位基音的片断(102,8);以及通过在每一片断中调整语音信号的相位而将所述语音信号处理为基音波形信号(102,9)。根据本专利技术的第三个方面的基音波形信号发生方法设备的特征为通过对输入的语音信号进行滤波而提取基音信号(102,6);根据提取的基音信号而将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位(102,7,8,9);根据经过相位调整的每一片断中的相位来确定采样长度,并通过以采样长度一致地完成采样而生成采样信号(102,11);和基于调整结果和所述采样长度的值,从所述采样信号中生成基音波形信号(102,15)。根据本专利技术的第四个方面的计算机可读记录介质的特性为记录了用于使计算机可以完成如下功能的程序滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。根据本专利技术的第五个方面的嵌于载波中的计算机数据信号的特征为提供使计算机可以完成如下功能的程序滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。根据本专利技术的第六个方面的程序的特征是使计算机可以完成如下功能滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号本文档来自技高网...

【技术保护点】
一种基音波形信号发生设备,其特征在于包括: 滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号; 相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位; 采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和 基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。

【技术特征摘要】
JP 2001-8-31 263395/011.一种基音波形信号发生设备,其特征在于包括滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。2.根据权利要求1所述的基音波形信号发生设备,进一步包括滤波系数确定装置(102,5),其根据所述基音信号和所述语音信号的参考频率确定所述滤波器的滤波系数,且其中所述滤波器根据所述滤波系数确定装置的决定来改变它的滤波系数。3.根据权利要求1所述的基音波形信号发生设备,其中所述相位调整装置通过对于所述基音信号的每一单位周期进行语音信号分割而确定每一所述片断,且相位调整装置可以对于每一所述片断进行相移,使相位成为根据通过将所述语音信号相移至不同相位而得到的信号与所述基音信号之间的相关度而得到的相位。4.根据权利要求1所述的基音波形信号发生设备,其中所述相位调整装置包括相位确定装置(102,8),其对于所述基音信号的每一单位周期进行语音信号分割而确定每一所述片断,且对于每一所述片断,在根据将所述语音信号相移至不同相位而得到的信号与所述基音信号之间的相关度而进行相移后确定相位;和装置(102,9),其将每一所述片断偏移至所述相位确定装置确定的相位,并将每一所述片断的幅度乘以一个常数以改变幅度。5.根据权利要求4所述的基音波形信号发生设备,其中所述常数是这样的值使各片断的幅度的有效值成为共同常数值。6.根据权利要求5所述的基音波形信号发生设备,其中所述基音波形信号发生装置进一步根据所述常数及所述采样信号的采样数目,生成所述基音波形信号。7.根据权利要求1所述的基音波形信号发生设备,其中所述相位调整装置以这样的方式将所述语音信号分割为所述片断使得用于所述滤波器提取的基音信号的时刻实质上变为0的点成为所述片断的起点。8.一种基音波形信号发生设备,其特征为语音的基音被确定(102,7);根据确定的基音的值,语音信号被分割为包含语音信号的单位基音的片断(102,8);以及通过...

【专利技术属性】
技术研发人员:佐藤宁
申请(专利权)人:株式会社建伍
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利