语音合成信息编辑设备制造技术

技术编号:7426844 阅读:178 留言:0更新日期:2012-06-10 19:59
本发明专利技术提供了语音合成信息编辑设备。在语音合成信息编辑设备中,音素存储单元存储音素信息,所述音素信息指示要合成的语音的每个音素的持续时间。特征存储单元存储特征信息,所述特征信息指示语音的特征的时间变化。编辑处理单元根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间,所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。

【技术实现步骤摘要】

本专利技术涉及一种对用于语音合成的信息(语音合成信息)进行编辑的技术。
技术介绍
在传统的语音合成技术中,作为合成对象的语音(下文中称为合成语音)的每个音素的持续时间被指定为可变。日本专利申请公开No.Hei06-67685描述了如下技术,其中当指示对根据目标任意字符串指定的音素的时间序列在时间轴上进行扩展或压缩时,以取决于音素类型(元音/辅音)的扩展/压缩度来增大/减小每个音素的持续时间。不过,由于实际语音中每个音素的持续时间不仅仅取决于音素类型,因此难以利用日本专利申请公开No. Hei06-67685中描述的以仅取决于音素类型的扩展/压缩度来对每个音素的持续时间进行扩展/压缩的构造来合成听起来自然的语音。
技术实现思路
鉴于上述情况,本专利技术的一个目的是生成语音合成信息,其即使在时间轴上执行扩展/压缩的情况下也能够合成听起来自然的语音(下文称为合成自然语音)。本专利技术通过如下手段来实现该目的。在后续说明中,尽管将对应于本专利技术要素的后述实施例的要素引用在括号中以利于更好的理解,但是这种括号引用并非意在将本专利技术的范围限制为这些实施例。根据本专利技术第一方面的语音合成信息编辑设备包括音素存储单元(例如存储装置12),其存储音素信息(例如音素信息SA),所述音素信息指示要合成的语音的每个音素的持续时间;特征存储单元(例如存储装置12),其存储特征信息(例如特征信息SB),所述特征信息指示语音的特征的时间变化;和编辑处理单元(例如编辑处理器M),其根据扩展 /压缩度(例如扩展/压缩度K(η))改变由所述音素信息指示的每个音素的持续时间,所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。与仅取决于音素类型来设置扩展/压缩度的构造相比,通过上述构造可以生成能够合成听起来自然的语音的语音合成信息,因为以取决于每个音素特征的扩展/压缩度来改变(扩展/压缩)相应音素的持续时间。例如,在特征信息指示音高(pitch)的时间变化的构造中,当扩展要合成的语音时,优选的是编辑处理单元将扩展/压缩度设置为根据特征可变,于是音素持续时间的扩展度随着特征信息所指示的音素的音高变高而增大。通过这种方式可以生成自然语音,其中反映了随着音高升高而增大扩展度的倾向。另外,在压缩合成语音时,编辑处理单元可以将扩展/压缩度设置为在压缩语音时随特征可变,于是音素的持续时间的压缩度随着特征信息所指示的音素的音高变低而增大。通过这种方式可以生成自然语音,其中反映了随着音高降低而增大压缩度的倾向。另外,在特征信息指示音量的时间变化的构造中,在扩展合成语音时,期望编辑处理单元将扩展/压缩度设置为根据特征可变,于是音素持续时间的扩展度随着特征信息所指示的音素的音量变大而增大。通过这种方式可以生成自然语音,其中反映了随着音量增大而增大扩展度的倾向。另外,在压缩合成语音时,编辑处理单元可以将扩展/压缩度设置为随特征可变,于是音素的持续时间的压缩度随着特征信息所指示的音素的音量变小而增大。通过这种方式可以生成自然语音,其中反映了随着音量变小而增大压缩度的倾向。同时,特征与扩展/压缩度之间的关系不限于上述示例。例如,假设扩展度随着音高降低而增大,则将扩展/压缩度设置为对于具有较高音高的音素而降低扩展度,并且假设扩展度随着音量增大而降低,将扩展/压缩度设置为对于具有较大音量的音素而降低扩展度。根据本专利技术的优选实施例的语音合成信息编辑设备还包括显示控制单元,其在显示装置上显示包括音素序列图像(例如音素序列图像3 和特征轮廓图像(例如特征轮廓图像34)的编辑屏幕,所述音素序列图像是在时间轴上排列的与语音的音素对应的音素指示符(例如音素指示符42)的序列,每个音素指示符具有根据特征信息所指示的持续时间而设置的长度,所述特征轮廓图像表示在同一时间轴上排列的由特征信息指示的特征的时间序列,所述显示控制单元还基于编辑处理单元的处理结果更新编辑屏幕。通过这种方式, 用户可以直观地了解每个音素的扩展/压缩,这是因为音素序列图像和特征轮廓图像以共同的时间轴显示在显示装置上。在本专利技术的优选方面中,特征信息指示针对在时间轴上排列的音素的每个编辑点 (例如编辑点α)的特征,并且所述编辑处理单元对特征信息进行更新,以使得编辑点相对音素的发声区间的位置在每个音素的持续时间改变前后得以保持。根据该方面,可以在保持时间轴上的编辑点在每个音素的发声区间中的位置的同时对每个音素进行扩展/压缩。在本专利技术的优选方面中,在更新特征的时间变化时,编辑处理单元将音素信息所表示的音素发声区间内的编辑点在时间轴上的位置移动一个取决于音素类型的量。通过这种方式,由于时间轴上的编辑点位置移动了一个取决于与编辑点对应的音素的类型的量, 因此可以容易地实现如下复杂的编辑处理,其中针对元音音素的编辑点在时间轴上的移动量不同于针对辅音音素的编辑点的移动量。于是可以减轻用户编辑特征的时间变化的负担。此方面的详细示例将在后文中的第二实施例中说明。已经提出了允许用户指定合成语音的特征(例如音高)的时间变化的传统语音合成技术。在显示装置上,将特征的时间变化显示为连接排列在时间轴上的多个编辑点(断点)的虚线。不过,用户需要单独移动各编辑点以改变(编辑)特征的时间变化,从而增加了用户负担。有鉴于此,本专利技术第二实施例的语音合成信息编辑设备包括音素存储单元 (例如存储装置12),其存储音素信息(例如音素信息SA),所述音素信息指示构成要合成的语音的在时间轴上排列的多个音素;特征存储单元(例如存储装置12),其存储特征信息 (例如特征信息SB),所述特征信息指示位于排列在时间轴上并且分配给各音素的编辑点 (例如编辑点α [m])处的语音特征;和编辑处理单元(例如编辑处理器M),其将处在音素的发声区间内的编辑点(例如编辑点α [m])在时间轴上的位置在时间轴的方向上移动一个取决于音素类型的量(例如量δ T[m])。根据这种构造,由于时间轴上的编辑点位置移动了与编辑点的音素的类型对应的量,因此可以容易地实现如下复杂编辑处理其中时间轴上针对元音音素的编辑点的移动量不同于针对辅音音素的编辑点的移动量。于是可以减轻用户编辑特征的时间变化的负担。此方面的详细示例将在后文第二实施例中说明。上述各方面的语音合成信息编辑设备通过专用于生成语音合成信息的诸如数字信号处理器(DSP)的硬件(电子电路)来实现,还可以通过诸如中央处理器(CPU)的通用运算处理装置及程序来共同实现。根据本专利技术第一方面的程序通过计算机运行来执行语音合成信息编辑处理,所述语音合成信息编辑处理包括提供音素信息,其指示要合成的语音的每个音素的持续时间;提供特征信息,其指示语音特征的时间变化;和根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间,所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。另外,根据本专利技术第二方面的程序通过计算机运行来执行语音合成信息编辑处理,所述语音合成信息编辑处理包括提供音素信息,其指示构成要合成的语音的在时间轴上排列的多个音素;提供特征信息,其指示位于排列在时间轴上、并且分配给音素的编辑点处的语音特征;以及将处在音素的发声区间内的编辑点在时间轴上的位置在时间轴的方向上移动一个取决于音素类型的量。根据上述方面的程序,可以得到与本专利技术的语音合成信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
2010.12.02 JP 2010-2693051.一种语音合成信息编辑设备,包括音素存储单元,其存储音素信息,所述音素信息指示要合成的语音的每个音素的持续时间;特征存储单元,其存储特征信息,所述特征信息指示语音的特征的时间变化;和编辑处理单元,其根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间,所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。2.根据权利要求1的语音合成信息编辑设备,其中所述特征信息所指示的特征是音高,并且所述编辑处理单元在扩展语音时将扩展/压缩度设置为根据特征可变,使得音素的持续时间的扩展度随着特征信息所指示的音素的音高升高而增大。3.根据权利要求1的语音合成信息编辑设备,其中所述特征信息所指示的特征是音高,并且所述编辑处理单元在压缩语音时将扩展/压缩度设置为根据特征可变,使得音素的持续时间的压缩度随着特征信息所指示的音素的音高降低而增大。4.根据权利要求1的语音合成信息编辑设备,其中所述特征信息所指示的特征是音量,并且所述编辑处理单元在扩展语音时将扩展/压缩度设置为根据特征可变,使得音素的持续时间的扩展度随着特征信息所指示的音素的音量变大而增大。5.根据权利要求1的语音合成信息编辑设备,其中所述特征信息所指示的特征是音量,并且所述编辑处理单元在压缩语音时将扩展/压缩度设置为根据特征可变,使得音素的持续时间的压缩度随着特征信息所指示的音素的音量变小而增大。6.根据权利要求1至5中任一项的语音合成信息编辑设备,还包括显示控制单元,其在显示装置上显示包括音素序列图像和特征轮廓图像的编辑屏幕,所述音素序列图像是沿时间轴排列的与语音的音素对应的音素指示符的序列,每个音素指示符具有根据音素信息所指示的持续时间设置的长度,所述特征轮廓图像表示沿同一时间轴排列并由特征信息指示的特征的时间序列,所述显示控制单元还基于编辑处理单元的处理结果更新编辑屏幕。7.根据权利要求1至6中任一项的语音合成信息编辑设备,其中特征信息指示针对...

【专利技术属性】
技术研发人员:入山达也
申请(专利权)人:雅马哈株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术