用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序制造方法及图纸

技术编号:4429968 阅读:241 留言:0更新日期:2012-04-11 18:40
生成当兴奋、紧张、愤怒或者为了强调而用力加强语气讲话时在声音的一部分中出现的“用力”声音,通过音质的变化能够丰富地表现如愤怒或兴奋、满怀信心的说话方式或精力充沛的说话方式那样的声音的表现力的声音转换装置所包含的用力声音转换部(10)包括:指定声音中的应该以“用力”声音来发音的部分的用力声音音韵位置决定部(11);以及将包含周期性振幅波动的调制付与声音波形的调幅部(14),调幅部(14)按照用力声音音韵位置决定部(11)的指定,对应该以“用力”声音发音的部分付与包含周期性振幅波动的调制,以生成“用力”声音,从而将兴奋、紧张、愤怒或者为了强调而用力加强语气讲话时的声音生成为逼真的、表现力丰富的声音。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及生成具有与正常的发音不同特点的声音的"用力"声音的 技术。这种"用力"声音包括(i)人在怒吼的时候、为了强调而用力加强 语气讲话时、在兴奋或紧张的状态下讲话时等出现的嘶哑的声音、粗鲁的声音、剌耳的声音(harsh voice); (ii)例如在唱演歌时出现的"颤音(A' L )"或"哼声(3《。)";或者(iii)例如在演唱布鲁斯歌曲或摇滚乐曲等时出现的"喊叫声"。本专利技术尤其涉及声音转换装置以及声音合成装置, 能够生成如上述声音所包含的、(i)愤怒、重音、强有力以及精力充沛的感情;(ii)声音的表现力;(iii)说话风格;或者(iv)讲话者的态度、状况 或发音器官的紧张状态等能够表达的声音。
技术介绍
以往,开发了以声音来表达感情、表现力、态度及状况等的、尤其不 是以语言的声音来表达,而是通过所谓口气、说话的方式及声调之类的副 语言的表达来表达感情等为目的声音转换或者声音合成的技术。这些技术 对于从机器人或者电子秘书到电子设备的声音对话接口都是必不可少的。在声音的副语言的表达之中,存在许多有关改变韵律模式的方法的提 案。具有如下的方法根据模型生成基频模式、强度模式以及节奏模式等 韵律模式,按照要以声音来表达的感情,通过以周期性波动信号来修正基 频模式和强度模式,从而生成带有要表达的感情的声音的韵律模式(例如, 参考专利文献l)。在依据韵律模式的修正的感情声音的生成方法中,还如 专利文献l的第0118段所指出的,为了防止由于起伏而产生的音质变化, 需要超出音节的时间长度周期的周期性波动信号。另一方面,作为实现根据音质的表达的方法,开发有以下的方法分 析被输入的声音以求出合成参数,改变此参数以改变音质的声音转换方法(例如,参考专利文献2),以及生成将标准的声音或无表现力的声音合成 的参数,并改变此参数的声音合成方法(例如,参考专利文献3)。而且,在波形连接方式的声音合成技术中,先将标准的声音或无表现 力的声音合成,并从带感情等的具有表现力的声音之中选择具备与此合成 音相似的特征矢量的声音并连接的技术被提案(例如,参考专利文献4)。进而,根据通过分析自然声音而得到的合成参数,在依据统计学习模 型生成合成参数的声音合成技术中,根据包含各种感情表达方式的自然声 音,对分别对应于各种感情的声音生成模型进行统计性的学习,并准备模 型之间的转换公式,将标准的声音或者无表现力的声音转换为表达感情的 声音的方式被提案。但是,上述以往的方式(方法)之中,在进行合成参数的改变的技术 中,按照以每种感情预先规定了的同样的转换规则进行参数转换。因此, 这种技术不能够再现自然说话中所能见到的出现如一部分是用了力的声音 的音质的变化。而且,在将与标准声音类似的带有特征矢量的感情等具有表现力的声 音抽取并连接的方式中,不容易选择与正常的发音大不相同的、象"用力 声音"那样具有特点的特殊音质的声音。因此,从结果来看,这种方式不 能再现自然说话中所能见到的音质的变化。还有,在根据包含感情表达的自然声音学习统计性的声音合成模型的 方式中,虽然也有可能学习音质的变化,但是表达感情的声音中的有特点 的音质的声音,其出现频率低而难以学习。例如,上述的"用力声音"、很 有礼貌地且和气地说话时特征性地出现的如耳语一般的声音(whispery voice),以及被称为柔和的声音的气嗓音(breathy)或者被称为"嘶哑的 声音"的送气的声音(参考专利文献4、专利文献5),由于通过其具有特 点的音质来吸引听众的注意力,因而印象深刻,大大影响说话整体的印象。 但是,这些声音只是出现在实际的整体声音的一部分中,出现频率不高。 从整体的发音时间来看,由于其时间比率小,在进行统计性的学习的情况 下,再现"用力声音"以及"嘶哑的声音"等的模型很难学习。艮P,在上述以往的方法中,存在难以再现一部分的音质的变化,不能 丰富地表达具有细微的时间结构的、并具有质感的、逼真的表现力的问题。于是,为了解决上述问题,并为了再现音质的变化,可以考虑专门对 特殊音质的声音进行音质转换的方式。有关成为音质转换的基础的音质的 物理特征,进行了与本申请所设定的对象的"用力声音"具有不同定义的 "用力"声音和上述"嘶哑"声音的研究。"嘶哑"也称为"漏气",具有低频谱的高次谐波分量,以及由于气流 的噪音分量大的特征。"嘶哑"的这种特征是由于在"嘶哑"的发音时,与正常的发音或者真嗓音(modalvoice)的发音时相比声门大开,所以"嘶 哑"的声音是以介于真嗓音和耳语嗓音(whisper)之间的嗓音而产生的。 真嗓音是噪音成分少的嗓音,耳语嗓音是没有周期成分只以噪音成分发音 的嗓音。"嘶哑"的特征作为,第一共振锋频带的包络波形和第三共振锋频 带的包络波形的相关性低,即作为以第一共振锋附近为中心的带通信号的 包络的形状和以第三共振锋附近为中心的带通信号的包络的形状的相关性 低而被检测出。在声音合成时,通过将上述的特征附加在合成音中而能够 实现"嘶哑"声音(参考专利文献5)。而且,进行了作为与本申请所设定的对象的、在怒吼、兴奋之际的发 音中所产生的声音不同的"用力声音",也称为"紧喉嗓音"(creaky)或 者"声带微颤而发出的弱声"(vocalfry)的声音的研究。在此研究中,设 "紧喉嗓音"的音响特征为(i)局部能量的变化剧烈;(ii)基频比正常 发音时的基频低,且不稳定;(iii)比正常发音的区间的强度小。同一研究 揭示出,由于通过发音时喉头用力,声带震动的周期性紊乱,从而存在产 生这些特征的情况。还有,设与音节单位的平均持续时间相比,经过长区 间产生"用力声音"的情况较多。设"紧喉嗓音"为在表达关心或厌恶的 感情,或者在表达踌躇或谦逊的态度时,具有提高讲话者的诚实感的效果 的音质。在此研究中所论述的"用力声音",在(i) 一般的文章结尾部分或 句尾等声音逐渐消失的过程中;(ii)在边选词边说话、边考虑边说话之际, 拉长词尾发音的情况下的被拉长了的词尾;以及(iii)在不知如何回答之 时发出的"A — , i (这个…)""》一/u (嗯)"之类的感叹词里经常可见。 再者,在此研究中揭示了 "声带微颤而发出的弱声"及"紧喉嗓音"里包 含有双拍节或者以基本周期的倍数发生的新的周期的双音(diplophonia)。 作为生成在"声带微颤而发出的弱声"里可见的被称为双音(diplophonia)的声音的方式,将错开了基频的二分之一周期的相位的声音重叠的方法被提案(参考专利文献6)。专利文献l:日本特开2002—258886号公报(图8、第0118段)专利文献2:日本专利第3703394号公报专利文献3:日本特开平7—72900号公报专利文献4:日本特开2004—279436号公报专利文献5:日本特开2006-84619号公报专利文献6:日本特开2006—145867号公报专利文献7:日本特开平3—174597号公报但是,通过上述以往的方法无法生成在如(i)在兴奋、紧张、愤怒或 者为了强调而用力加强语气讲话时出现的嘶哑的声音,粗鲁的声音或者刺 耳的声音(harsh voice);或者(ii)唱歌时出现的"颤音(;^ )"、"哼声(3 & 0 )"或"喊叫声"那样本文档来自技高网...

【技术保护点】
一种用力声音转换装置,其特征在于,包括: 用力声音音韵位置指定单元,指定成为转换对象的声音中的音韵;以及 调制单元,对表示由所述用力声音音韵位置指定单元指定了的音韵的声音波形,施行伴随与音韵的时间长度相比周期短的周期性振幅波动的 调制。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:加藤弓子釜井孝浩
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利