语音合成组件制造技术

技术编号:3568753 阅读:178 留言:0更新日期:2012-04-11 18:40
一种用于远程通讯交换机中的语音合成组件,具有一些联结装置,使得组件能联结到交换机上,以便交换机控制该组件驱动组件内部的电路装置,使其产生一个与特定的交换机工作状态相适应的语音响应音信息对状态指示音调加以补充,从而将交换机状态告诉用户.该语音合成组件由计算机程序控制,其中程序是利用结构程序方法设计的,该方法包括产生数据结构图,将这些数据结构图组合成为基本的程序结构,并扩展以包括能从中写出伪代码的所有程序操作.(*该技术在2006年保护过期,可自由使用*)

【技术实现步骤摘要】
本专利技术涉及一种用于远程通信交换机中的语音合成组件。 语言重放技术和方法,业已问世多年。但是,采用模拟录音的磁带和磁盘机械驱动装置,却十分昂贵、笨重、耗电和容易损坏。而且,这些装置只能顺序地重放录音。编码语言的数字方法看来要比相应的模拟录音装置便宜,但是,对存储器的要求很高。例如,脉冲编码调制(PCM)技术通常在频率为8千赫(KHZ),相应的带宽为4千赫的条件下对语言数据取样。并将每一取样信号量化成8位数字信号,这就形成了每秒64K位的数据速率。这样高的数据速率,使得对大量词汇进行数字编码无法实现。数字编码方法有时被称作波形合成方法,但是,这并不是真正的合成方法,因为它们是由被存储的代码语言数据简单地重新组成原来的波形来。真正的合成技术,利用参量数据产生语言波形,该语言波形并不类同于原来的语言波形,只不过人的耳朵对这两种波形的感觉几乎相同。 语言合成基本上有两种不同类型,即时域合成和频域合成。时域合成是利用为时间函数的语言波形的压缩表达式作为语言存储数据。合成装置只是简单地取出这些存储波形以产生语言输出信号。这种方法的目的不单是为了减少存储原来语言波形所需的位数目,并进而企图逼近这种波形,而是试图产生一种由少量二进制位表示的合成语言波形,这种波形听起来像原来波形的声音,但是,看起来不一定要类似于原来的波形。实施这种方法的硬件非常简单,困难之处在于对语言波形进行分析,使其能以高度压缩的形式进行存储。 频域合成是基于对人的声道的模拟。语言波形以参量数据方式加以储存,这些参量数据表示出声音的倍频振动和声道的响应情况。复杂的积成电路将这些频域的参照转换成接近于原来语言波形频谱的时域音频信号。 目前存在着各种基于时域合成和频域合成的语言合成方法,它们被用于语言合成积成电路中。这些方法大体上可以称作构成方法,或分析/合成方法。各构成合成法是依据一组规则,从一组规定的语言声段产生出语言输出。利用这样的一组规则,语言要素(例如音素)便能连结成任一单词。利用这些方法,不需要原始的人的语言波形。这种方法也能称之为“规则合成”法。 各分析/合成方法是由实际的人的语言波形导出语言波形的词汇。这些词汇是以单词,短语或者整个句子的形式出现的,因此,导出的合成语言,从音调,语调,易懂性和质量上讲,更加近似于原来的语言。分析/合成方法对实际的口语单词或短语进行分析,从而产生出表示该种语言波形的编码参量。这些参量可以存储起来以备后用,和/或马上合成,以控制语言合成器组件。这些方法比起构成合成方法,需要大得多的存储容量。 在语言合成积成电路中,采用四种基本的语言合成方法。这就是音素合成法,共振峰合成法,波形数字化法和线性预测编码法。 音素合成器是一种能够产生语音的基本单位-音素,并将它们连结起来的装置。音素合成器的整个位速率可以很低,大约是每秒100位,因为在大多数语言中,音素的数目大致为40至100个。音素合成器强调“字母”的简单性,而不注重语言质量。基本音素的发音,在不同的词汇中稍有变化。由如此少量的基本发音所形成的词汇,显得有些生硬。借助于大的存储容量,利用音素变形〔allophon〕对音素进行修正,可以改善语言质量。44个基本的英语音素可以扩展成128个音素变形。这需要大约3K字节的存储单元,而且,为了存放用于连结音素变形的规则,还进一步需要7K字节的存储单元。音素变形语言所起来仍然不自然,但是,规则设置一直在改进,以便改善语言质量。通过将音调曲线叠加在音素变形连结串上,可以使语言听起来更为舒服。但是,如果运用得不恰当,这会降低语言的易懂性,而且,从算法实施的角度考虑,这是一个困难的过程。音素变形合成器在词汇量,存储量要求,语言质量,通用性和灵活性诸项指标之间提供了一个折衷的选择。而且,音素变形合成器特别适合于文章-语言系统。由键盘输入的文章,可以自动地转换成适当的音素变形,继而再利用音素变形产生语言。 共振峰合成器的目的是从电子学角度模拟形成声道各特征的声音。大多数共振峰合成器对于浊音采用三个共振峰滤波器而对于摩擦音采用一个共振峰滤波器。鼻音共振峰滤波器可有可无,但是,通常不含有动态共振峰功能元件。这里,采用两种驱动功能元件,一种是浊音的脉冲源,一种是清音的噪声源。这两种驱动信号被时间变化的共振峰滤波器滤波成特定的频带或共振峰。共振峰频率的带宽由算法提供,但是严格模拟这些带宽,对语言的易懂性相对说来并不重要。控制器将数据送至含有九个控制参量的模块。这些参量确定了共振峰频率和振幅,它们是 AH-送气音振幅 AV-元音振幅 AV-摩擦音振幅 AN-鼻音振幅 FI-共振峰1频率 F2-共振峰2频率 F3-共振峰3频率 FF-摩擦共振峰频率 FV-振荡器频率 这些参量是通过让输入信号经过时间变化滤波器产生的。这些滤波器的系数随后储存在只读存储器(ROM)中,以供合成时使用。这一方法之所以被称之为规则合成,是因为提取词汇信号的规则,被存储在硬件中。共振峰合成法产生的语言易懂,且较之音素合成法的语言更接近于人的声音。此种方法的位速率大约为每秒400位。更精确地模拟共振峰带宽,会提高语言的质量,不过,也提高了位速率。 波形数字化法理论上是语言合成法的最简单形式。这是最早的一种语言合成途径,它依赖于有效的模-数转换。输入源被转换成数字数据,并存储在存储器中以便以后检索和输出。为了精确地表示语言波形,需要很多的数字编码,也就是说需要大容量的存储器。为了减少大量的存储数据,采用一种压缩算法,可以将需要的存储器容量减至原来的百分之一。利用这种方法,并不打算模拟人的声道。在国家半导体语言处理芯片(National Semicondncfors Speech processor Chip)中,采用三种压缩技术。一种技术是除去多余的音调周期和部分周期以及多余的音素和部分音素。第二种技术是通过在前面波形的幅值上加上一个微波附加量,来得到后来波形的幅值。第三种方法除去了语言波形的方向分量(相角)。由压缩的数据,在合成时,产生一个听起来类似于原来波形的波形。波形数字化法是一种语言合成的分析/合成法。 声音中的相角,对优质的音乐重放是重要的,但是,对于语言来说,这一信息并不重要。利用语言波形的富里哀分析,可以得到一种波形,此种波形至少在半个周期内具有镜象对称和低振幅。利用镜象对称,可以将半个波形舍去,而在“重放”时,先向前,然后向后播放剩下的半个波形。通过将信号的低振幅部分减至零,储存数据的量可以减少一半而不降低语言的易懂性。这一方法被称之为半周期零化法。 利用重复周期,除去一些音素和音调周期。若干十分相似的周期可以用一个多次产生的周期来代替。对于浊音波形,这种重复可以发生3或4次,对于清音波形,则可达7或8次。清音也被规格化。在压缩算法中,将清音与现成的声音加以比较,由于清音几乎没有什么说话人明确的特征,所以清音可以利用转换而被合成。 自适应δ调制是一种用来由一个波形产生另一个波形的方法。由于语言波形是相当平滑和连续的波形,如果存储的量是相邻数字化信号之间振幅的差,而不是实际的振幅值,那末需要被存储的信息将大大减少。相邻数字信号之本文档来自技高网...

【技术保护点】
用于远程通信交换机中的一种语音合成组件,其特征在于:该组件具有一些联结装置,使得组件能联结到交换机上,以便交换机控制该组件驱动组件内部的电路装置,使其产生一个与特定的交换机工作状态相适应的语音响应音信息,以补偿用来通知交换机用户该状态的指示音调状态。

【技术特征摘要】
GB 1985-1-29 85022281、用于远程通信交换机中的一种语音合成组件,其特征在于该组件具有一些联结装置,使得组件能联结到交换机上,以便交换机控制该组件驱动组件内部的电路装置,使其产生一个与特定的交换机工作状态相适应的语音响应音信息,以补偿用来通知交换机用户该状态的指示音调状态。2、根据权利要求1所说的语音合成组件,其特征在于该组件包括一个中央处理单元,一个包含有语言库和多个语言合成器的存储器,中央处理单元是这样设置的,当在它扫描程序时,它从交换机接收信息,访问含有语言库的存储器,并将访问所得的信息分配给指定的语言合成器,语言合成器根据这些数据进行计算,并产生合成的语音响应音信息。3、根据权利要求2所说的语音合成组件,其特征在于各个语言合成器利用多路传输转接到含有语言库的存储器上,并被安排到中央处理单元的存储器中,这样,语言数据由含有语言库的存储器向指定的多路开关转接器的传送,就由中央处理单元控制,中央处理单元按照分配给合成器的存储单元地址,访问指定的合成器。4、根据权利要求2或3所说的语音合成组件,其特征在于该语音合成组件包括用于控制由交换机接收到的短语和通道号...

【专利技术属性】
技术研发人员:尼尔凯利特
申请(专利权)人:普列斯海外有限公司
类型:发明
国别省市:GB[英国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利