韵律编辑装置、方法及程序制造方法及图纸

技术编号:9766663 阅读:161 留言:0更新日期:2014-03-15 14:28
提供能容易编辑韵律的韵律编辑装置、方法及程序。本实施方式涉及的韵律编辑装置包括:第1选择部、存纳部、检索部、标准化部、映射部、显示部、第2选择部、恢复部及置换部。存纳部对应存纳表示短语相关的属性的属性信息、和1个以上的韵律图形,上述韵律图形表示该短语的韵律的型式,并且表示该短语的韵律的参数包含该短语的音素数以上的要素数。检索部从存纳部检索选择短语和属性信息相一致的1个以上的韵律图形,得到韵律图形集合。映射部将标准化的韵律图形分别映射在数目比要素数少的坐标中表示的低维度空间,生成映射坐标。恢复部按照选择坐标而恢复韵律图形,得到恢复韵律图形。置换部根据选择短语将生成的合成语音的韵律置换为恢复韵律图形。

【技术实现步骤摘要】
韵律编辑装置、方法及程序
本专利技术的实施方式涉及韵律编辑装置、方法及程序。
技术介绍
近年来,随着从文本合成语音的语音合成技术的发展,能得到接近人的发音的自然合成音。近年的语音合成系统中,一般采用从录制人的语音的语音语料库学习韵律或音质的统计模型的方法。例如,作为韵律的统计模型,已知有决定树模型、隐藏马尔可夫模型等。通过使用这些统计模型,也能以某种程度自然地再现学习语料库中不存在的任意文本的语调。可是,由于统计模型从语音语料库的多个表达学习平均的韵律特征,从统计模型生成的合成语音的语调容易变得单调。因此,存在如下系统:将根据统计模型生成的韵律的图形可见化并向用户提示,用户使用鼠标等的设备能图形化地编辑。现有技术文献专利文献专利文献1:日本特开2008-268477号公报专利文献2:日本专利第4296231号说明书
技术实现思路
然而,图画的编辑中,能制作任意的韵律,只要作为合成语音输出即可。因而,韵律图形编辑使编辑的自由度增大,但是,相反,也能作成不妥当的韵律的图形。即,存在没有语音相关的知识的用户非常难制作期望的韵律的图形这样的问题。还有,为了解决自由度的问题点,存在向二元坐标平面压缩自由度非常大的参数空间的方法。可是,存在如下问题:能编辑的不是短语的韵律的图形,而是合成音的音质,所以编辑对象不同,并且无法用于编辑文本的任意短语的基频、持续时间长度的目的。本公开为了解决上述的课题而做出,其目的在于提供一种能容易编辑韵律的韵律编辑装置、方法及程序。本实施方式涉及的韵律编辑装置包括--第I选择部、存纳部、检索部、标准化部、映射部、显示部、第2选择部、恢复部及置换部。第I选择部从文本选择含有音素的短语/词组(PHRASE),作为选择短语。存纳部对应存纳表示短语相关的属性的属性信息、和I个以上的韵律图形,上述韵律图形表示该短语的韵律的型式,并且表示该短语的韵律的参数包含该短语的音素数以上的要素数。检索部从上述存纳部检索上述选择短语和属性信息相一致的上述I个以上的韵律图形,得到韵律图形集合。标准化部将上述韵律图形集合中包括的韵律图形分别标准化。映射部将标准化的上述韵律图形分别映射在数目比上述要素数少的坐标中表示的低维度空间,生成映射坐标。显示部显示上述映射坐标。第2选择部得到从上述映射坐标选择的坐标,作为选择坐标。恢复部按照上述选择坐标而恢复韵律图形,得到恢复韵律图形。置换部,根据上述选择短语将生成的合成语音的韵律置换为上述恢复韵律图形。【附图说明】图1是表示第1实施方式涉及的韵律编辑装置的方块图。图2是表示在韵律图形DB存纳的短语的属性信息的一个例子的图。图3是表示在韵律图形DB存纳的韵律图形的一个例子的图。图4是表示基频、持续时间长度及力度(POWER)的关系的图。图5是表示韵律编辑装置的操作的流程图。图6是表示韵律图形标准化部的标准化处理的图。图7是用于说明韵律图形映射部的映射处理的图。图8是用于说明韵律图形映射部的映射处理的图。图9是表示在显示部显示的映射坐标的一个例子的图。图10是表示在显示部显示的用户界面,(a)表示韵律图形的图表,(b)表示二元坐标平面的图。图11是表示第1变形例的韵律图形映射部的映射处理,(a)表示基频的二元坐标平面,(b)表示持续时间长度的二元坐标平面的图。图12是表示第1变形例涉及的界面的一个例子的图。图13是表示第2变形例涉及的集中(CLUSTERING)处理后的二元坐标平面的例子的图。图14是表示第3变形例涉及的在韵律图形DB存纳的韵律图形的一个例子的图。图15是表示第3变形例涉及的集中处理后的二元坐标平面的例子的图。图16是表示第2实施方式涉及的韵律编辑装置的方块图。图17是表示第2实施方式涉及的韵律图形恢复部的处理的图。图18是表示韵律编辑装置的硬件配置的方块图。【具体实施方式】以下,一边参照附图一边关于本实施方式涉及的韵律编辑装置、方法及程序详细地说明。再者,以下的实施方式中,对附加相同的参照符号的部分进行同样的操作,适当地省略重复的说明。(第1实施方式)关于第1实施方式涉及的韵律编辑装置,参照图1的方块图来说明。第1实施方式涉及的韵律编辑装置100包括:语音合成部101、短语选择部102、韵律图形数据库103 (以下,称为韵律图形DB103)、韵律图形检索部104、韵律模型数据库105(以下,称为韵律模型DB105)、韵律模式生成部106、韵律图形标准化部107、韵律图形映射部108、坐标选择部109,韵律图形恢复部110、韵律图形置换部111及显示部112。语音合成部101,从外部接收文本,对文本语音合成,生成合成语音,输出到外部。对语音合成的方式,一般已知有使用连接音素的片断的要素连接型语音合成、或隐藏马尔可夫模型将韵律、声质模型化的HMM语音合成等。在这里,只要能取得合成语音的韵律图形,可以采用任何的语音合成方式。所谓韵律图形,表示短语的韵律的型式,意味着表示短语的韵律的基频、持续时间长度、力度等的参数的时系变化。还有,表示韵律图形的参数具有短语的音素数以上的要素数。短语选择部102从外部接收文本,按照用户的输入选择作为从文本编辑韵律的范围的短语,得到选择短语。作为选择短语的选择方法,例如有鼠标、键盘、触摸屏等,只要通过鼠标等选择短语的范围即可。短语选择部102从语音合成部101取得与选择的短语相对应的合成语音的属性信息。所谓属性信息表示短语的表层表现、音素列的排列方法、短音节(MORA)数、和口音(ACCENT)型等的关于短语的属性。韵律图形DB103分别对应存纳短语的属性信息、和短语的I个以上的韵律图形。向韵律图形DB103进行属性信息及韵律图形的登记方法,采用例如登记从录音语音提出的真实的嗓音韵律图形、用户登记编辑完成的韵律图形、从韵律的统计模型登记自动生成的韵律这样的一般方法即可。韵律图形检索部104从短语选择部102接收选择短语及属性信息。韵律图形检索部104从韵律图形DB103检索选择短语的属性信息和属性信息相一致的短语,得到与相一致的短语相对应的I个以上的韵律图形作为韵律图形集合。韵律模型DB105存纳统计模型。统计模型采用语音语料库表示学习的决定树模型、隐藏马尔可夫模型。只要准备各种表达风格、感情、和说话者的统计模型,能对用户指定的选择短语生成各种韵律图形。韵律模式生成部106从韵律图形检索部104接收选择短语及韵律图形集合。韵律模式生成部106使用韵律模型DB105,生成有关选择短语的韵律图形,向韵律图形集合追加生成的韵律图形。再者,只要韵律图形检索部104检索的韵律图形集合包括的韵律图形的数目为阈值以上,韵律模式生成部106也可不重新生成韵律图形。韵律图形标准化部107从韵律图形检索部104接收韵律图形集合。再者,在韵律模式生成部106向韵律图形集合追加韵律图形的场合,从韵律模式生成部106接收韵律图形集合。韵律图形标准化部107将生成的韵律图形集合的韵律图形分别标准化。韵律图形映射部108从韵律图形标准化部107接收标准化的韵律图形,将标准化的韵律图形映射在数目比参数的要素数少的坐标中表示的低维度空间,并得到每韵律图形的映射坐标。坐标选择部109按照来自用户的指示选择坐标,得到选择坐标。韵律图形恢复部110分别本文档来自技高网...

【技术保护点】
一种韵律编辑装置,其特征在于,包括:第1选择部,从文本选择含有音素的短语,得到选择短语;存纳部,对应存纳表示短语相关的属性的属性信息、和1个以上的韵律图形,上述韵律图形表示该短语的韵律的型式,并且表示该短语的韵律的参数包含该短语的音素数以上的要素数;检索部,从上述存纳部检索上述选择短语和属性信息相一致的上述1个以上的韵律图形,得到韵律图形集合;标准化部,将上述韵律图形集合中包括的韵律图形分别标准化;映射部,将标准化的上述韵律图形分别映射在数目比上述要素数少的坐标中表示的低维度空间,生成映射坐标;显示部,显示上述映射坐标;第2选择部,得到从上述映射坐标选择的坐标,作为选择坐标;恢复部,按照上述选择坐标而恢复韵律图形,得到恢复韵律图形;置换部,根据上述选择短语将生成的合成语音的韵律置换为上述恢复韵律图形。

【技术特征摘要】
2012.08.20 JP 181616/20121.一种韵律编辑装置,其特征在于,包括:第1选择部,从文本选择含有音素的短语,得到选择短语;存纳部,对应存纳表示短语相关的属性的属性信息、和1个以上的韵律图形,上述韵律图形表示该短语的韵律的型式,并且表示该短语的韵律的参数包含该短语的音素数以上的要素数;检索部,从上述存纳部检索上述选择短语和属性信息相一致的上述1个以上的韵律图形,得到韵律图形集合;标准化部,将上述韵律图形集合中包括的韵律图形分别标准化;映射部,将标准化的上述韵律图形分别映射在数目比上述要素数少的坐标中表示的低维度空间,生成映射坐标;显示部,显示上述映射坐标;第2选择部,得到从上述映射坐标选择的坐标,作为选择坐标;恢复部,按照上述选择坐标而恢复韵律图形,得到恢复韵律图形;置换部,根据上述选择短语将生成的合成语音的韵律置换为上述恢复韵律图形。2.如权利要求1所述的韵律编辑装置,其特征在于,还包括: 生成部,使用统计模型生成上述选择短语相关的韵律图形,将生成的韵律图形追加到上述韵律图形集合。3.如权利要求1或2所述的韵律编辑装置,其特征在于,还包括:语音合成部,根据上述恢复韵律图形将文本语音合成,生成合成语音。4.如权利要求1至3中任一项所述的韵律编辑装置,其特征在于,上述属性信息包含表示上述短语的字符串的表层表现;上述检索部检索上述选择短语的表层表现和上述短语的表层表现是否相一致。5.如权利要求1至3中任一项所述的韵律编辑装置,其特征在于,上述属性信息包含表示上述短语的音素的字符串的音素列;上述检索部检索上述选择短语的音素列和上述短语的音素列是否相一致。6.如权利要求1至3中任一项所述的韵律编辑装置,其特征在于,上述属性信息包含上述短语的短音节数及口音型;上述检索部检索上述选择短语的短音节数及口音型、和上述短语的短音节数及口音型是否相一致。7.如权利要求1至6中任一项所述的韵律编辑装置,其特征在于,上述韵律图形的参数包含音素的基频、音素的持续时间长度及音素的力度;上述映射部,关于上述基频、上述持续时间长度、和上述力度中的1个以上的参数,独立映射。8.如权利要求1至6中任一项所述的韵律编辑装置,其特征在于,上述韵律图形,通过音素的基频、音素的持续时间长度及...

【专利技术属性】
技术研发人员:森纮一郎笼岛岳彦森田真弘
申请(专利权)人:株式会社东芝
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1