声音合成装置、声音合成方法及程序制造方法及图纸

技术编号:22506152 阅读:28 留言:0更新日期:2019-11-09 03:57
实施方式的声音合成装置具有声音合成部(10)、讲话者参数存储部(50)、可否利用判定部(60)和讲话者参数控制部(40)。声音合成部(10)能够根据与讲话者特性相关的参数的值即讲话者参数值控制合成声音的讲话者特性。讲话者参数存储部(50)存储已登记讲话者参数值。可否利用判定部(60)根据将所输入的讲话者参数值与已登记讲话者参数值分别比较的结果,判定所输入的讲话者参数值的可否利用。讲话者参数控制部(40)禁止或者限制通过所述可否利用判定部(60)被判定为不可以利用的讲话者参数值的利用。

Sound synthesis device, method and procedure

The voice synthesis device according to the embodiment has a voice synthesis unit (10), a speaker parameter storage unit (50), a decision unit (60) and a speaker parameter control unit (40). The voice synthesis unit (10) can control the speaker characteristics of the synthesized voice according to the value of the parameter related to the speaker characteristics, that is, the speaker parameter value. The speaker parameter storage unit (50) stores the registered speaker parameter values. The decision unit (60) determines whether the input speaker parameter value can be used according to the result of comparing the input speaker parameter value with the registered speaker parameter value respectively. The speaker parameter control unit (40) prohibits or restricts the utilization of the speaker parameter value determined to be unavailable by the availability determination unit (60).

【技术实现步骤摘要】
【国外来华专利技术】声音合成装置、声音合成方法及程序
本专利技术的实施方式涉及声音合成装置、声音合成方法及程序。
技术介绍
在声音合成中具有这样的需求,对于所生成的合成声音的讲话者,不仅从事前准备的少数候选中进行选择,而且想要重新生成适合于想阅读的内容的讲话者特性或利用者独自的讲话者特性。作为应对此需求的手段,例如提出了根据与讲话者特性相关的参数的操作使生成新的讲话者特性的技术。随着这种技术的性能提高,在利用者想要自由地生成原创性较高的各种各样的讲话者特性时,可以预见想要把新生成的讲话者特性作为独自的讲话者特性而独占利用的需求高涨。但是,存在与某一利用者生成的讲话者特性相同或者相似的讲话者特性偶然地由其他利用者生成并在实际的产品/服务等中使用的可能性,而不能应对那样的需求。现有技术文献专利文献专利文献1:日本专利第4296231号公报
技术实现思路
专利技术要解决的课题本专利技术要解决的课题是,提供能够实现讲话者特性的独占利用的声音合成装置、声音合成方法及程序。用于解决课题的手段实施方式的声音合成装置具有声音合成部、讲话者参数存储部、可否利用判定部和讲话者参数控制部。声音合成部能够根据与讲话者特性相关的参数的值即讲话者参数值控制合成声音的讲话者特性。讲话者参数存储部存储已登记讲话者参数值。可否利用判定部根据将所输入的讲话者参数值与已登记讲话者参数值分别比较的结果,判定所输入的讲话者参数值的可否利用。讲话者参数控制部禁止或者限制通过所述可否利用判定部被判定为不可以利用的讲话者参数值的利用。附图说明图1是表示有关第1实施方式的声音合成装置的功能性结构例的框图。图2是表示声音合成部和声音合成模型存储部的结构例的框图。图3是表示将讲话者参数值转换成子模型的加权的具体例的图。图4是表示在讲话者参数存储部存储的信息的一例的图。图5是表示可否利用判定部的处理步骤的一例的流程图。图6是表示用户界面的画面结构例的图。图7是表示用户界面的画面结构例的图。图8是表示用户界面的画面结构例的图。图9是表示用户界面的画面结构例的图。图10是表示用户界面的画面结构例的图。图11是表示用户界面的画面结构例的图。图12是表示有关第2实施方式的声音合成装置的功能性结构例的框图。图13是表示可否利用的判定和可否登记的判定的差异的概念图。图14是表示用户界面的画面结构例的图。图15是表示用户界面的画面结构例的图。图16是表示用户界面的画面结构例的图。图17是表示用户界面的画面结构例的图。图18是表示用户界面的画面结构例的图。图19是表示声音合成装置的硬件结构例的框图。具体实施方式下面,参照附图对实施方式的声音合成装置、声音合成方法及程序进行详细说明。另外,在下面的说明中,对于具有相同功能的构成要素赋予相同的标号,并适当省略重复的说明。<第1实施方式>图1是表示有关第1实施方式的声音合成装置的功能性结构例的框图。如图1所示,本实施方式的声音合成装置具有声音合成部10、声音合成模型存储部20、显示/输入控制部30、讲话者参数控制部40、讲话者参数存储部50和可否利用判定部60。声音合成部10在被输入文本信息时,使用在声音合成模型存储部20存储的各种模型和规则,生成合成声音的声音波形。此时,如果从讲话者参数控制部40被输入了与讲话者特性相关的参数的值即讲话者参数值,则一面根据所输入的讲话者参数值控制讲话者特性一面生成声音波形。所谓讲话者特性是指讲话者固有的声音的特点,例如包括年龄、洪亮度、硬度、清晰度……这样的多个要素。讲话者参数值例如是与这些讲话者特性的各要素对应的值的集合。在声音合成模型存储部20存储有声音合成所需要的各种信息,如将声音的音响性特点模型化得到的音响模型、将抑扬顿挫/节奏等韵律模型化得到的韵律模型等。在本实施方式的声音合成装置中,在声音合成模型存储部20还存储有讲话者特性的控制所需要的模型。在基于HMM(HiddenMarkovModel:隐马尔可夫模型)的声音合成方式的情况下,在声音合成模型存储部20存储的韵律模型和音响模型是将由文本抽取的文本信息、与韵律和音响等参数序列的对应关系模型化得到的。文本信息通常包括与文本的诵读和声调对应的音韵信息、语句的段落和词类等语言信息,模型包括按照状态在音韵/语言环境下将各参数分类得到的决定树、和对决定树的各叶子节点分配的参数的概率分布。关于韵律参数有表示声音的高低的音高参数、表示声音的长短的持续时间长度等。另外,关于音响参数有表示声道的特点的声谱参数、表示音源信号的非周期性的程度的非周期性指标等。所谓状态是指以HMM将各参数的时间性变化模型化时的内部状态。通常,各音素区间是以按照不后退地从左到右的状态进行推移的3~5状态的HMM被模型化的,因而包括3~5个的状态。因此,例如在针对音高参数的第一状态的决定树中,音素区间内的开头区间的音高值的概率分布在音韵/语言环境下被分类,以与对象的音素区间相关的音韵/语言信息为基础追寻该决定树,由此能够得到该音素的开头区间的音高参数的概率分布。在参数的概率分布中往往使用正规分布,在这种情况下,用表示分布的中心的平均向量和表示分布的扩展的共分散矩阵进行表述。在声音合成部10中,根据所输入的文本信息,用如上所述的决定树选择针对各参数的各状态的概率分布,根据这些概率分布分别生成概率达到最大的参数序列,根据这些参数序列生成声音波形。在基于通常的HMM的方式的情况下,根据所生成的音高参数和非周期性指标生成音源波形,在该音源波形中叠加滤波特性按照所生成的声谱参数呈时间性变化的声道滤波器,由此生成声音波形。在本实施方式的声音合成装置的声音合成部10中,根据来自讲话者参数控制部40的讲话者参数值的指定,能够进行讲话者特性的控制。作为实现该控制的方法,例如按照专利文献1所记载的那样,在声音合成模型存储部20存储将音质不同的多个讲话者的声音分别模型化得到的多个音响模型,按照所指定的讲话者参数值选择几个音响模型,通过加权和等对来自所选择的音响模型的音响参数进行插补,由此能够实现期望的讲话者特性。或者,即使是通过如图2所示的结构的声音合成部10和声音合成模型存储部20,也能够实现讲话者特性的控制。在图2所示的结构中,在声音合成模型存储部20存储有将成为基础的讲话者特性的韵律/音质模型化得到的基础模型、和将因讲话者特性的各要素的差异而形成的韵律/音响参数的差异模型化得到的讲话者特性控制模型。基础模型可以是表现多个讲话者的平均的讲话者特性的被称为平均声音模型的模型,还可以是表现某一讲话者的讲话者特性的模型。基础模型的具体结构例如与基于上述的HMM的方式的韵律模型和音响模型一样,包括按照状态在音韵/语言环境下将各参数分类得到的决定树、和对决定树的各叶子节点分配的参数的概率分布。关于讲话者控制模型,可以是包括决定树和对决定树的各叶子节点分配的概率分布的模型,但该模型的概率分布表示与讲话者特性的各要素的差异对应的韵律/音响参数的差异。具体地,包括将基于年龄差异的韵律/音质参数的差异模型化得到的年龄模型、将基于声音的洪亮度的差异的韵律/音质参数的差异模型化得到的洪亮度模型、将基于声音的硬度的差异的韵律/音质参数的差异模型化得到的硬度模型、将基于声音清晰度的差异的韵律/音质参数的差异模型化得到的清晰度模本文档来自技高网...

【技术保护点】
1.一种声音合成装置,具有:声音合成部,能够根据与讲话者特性相关的参数的值即讲话者参数值控制合成声音的讲话者特性;讲话者参数存储部,存储已登记讲话者参数值;可否利用判定部,根据将所输入的讲话者参数值与已登记讲话者参数值分别比较的结果,判定可否利用所输入的讲话者参数值;讲话者参数控制部,禁止或者限制通过所述可否利用判定部判定为不可利用的讲话者参数值的利用。

【技术特征摘要】
【国外来华专利技术】2017.03.15 JP 2017-0498011.一种声音合成装置,具有:声音合成部,能够根据与讲话者特性相关的参数的值即讲话者参数值控制合成声音的讲话者特性;讲话者参数存储部,存储已登记讲话者参数值;可否利用判定部,根据将所输入的讲话者参数值与已登记讲话者参数值分别比较的结果,判定可否利用所输入的讲话者参数值;讲话者参数控制部,禁止或者限制通过所述可否利用判定部判定为不可利用的讲话者参数值的利用。2.根据权利要求1所述的声音合成装置,所述声音合成装置还具有存储声音合成模型的声音合成模型存储部,所述声音合成模型包括将成为基础的讲话者特性模型化得到的基础模型、和将讲话者特性的各要素的特点模型化得到的讲话者特性控制模型,所述声音合成部包括:选择部,从所述基础模型和所述讲话者特性控制模型中选择多个统计量;相加部,按照所指定的讲话者参数值对所述统计量进行加权相加,所述声音合成部使用通过所述相加部进行加权相加得到的统计量生成所述合成声音的声音波形。3.根据权利要求1或2所述的声音合成装置,所述可否利用判定部根据规定的函数计算所输入的讲话者参数值与已登记讲话者参数值的差异,在所计算出的差异为表示已登记讲话者参数值的登记范围的第1阈值以下的情况下,将所输入的讲话者参数值判定为不可利用。4.根据权利要求3所述的声音合成装置,所述讲话者参数存储部还存储已登记讲话者参数值固有的所述第1阈值。5.根据权利要求3或4所述的声音合成装置,所述可否利用判定部将所输入的讲话者参数值和已登记讲话者参数值分别映射在共同的讲话者参数空间中,在该讲话者参数空间中计算所输入的讲话者参数值与已登记讲话者参数值的差异。6.根据权利要求1~5中任意一项所述的声音合成装置,所述声音合成装置还具有讲话者参数登记部,将所输入的讲话者参数值登记在所述讲话者参数存储部中,所述讲话者参数控制部根据来自利用者的登记申请,对所述讲话者参数登记部输出讲话者参数值的登记指示。7.根据权利要求6所述的声音合成装置,所述可否利用判定部还判定可否登记所输入的讲话者参数值,在通过所述可否利用判定部判定为可以登记的情况下,所述讲话者参数控制部对所述讲话者参数登记部输出所输入的讲话者参数值的登记指示。8.根据权利要求7所述的声音合成装置,所述可否利用判定部根据规定的函数计算所输入的讲话者参数值与已登记讲话者参数值的差异,在所计算出的差异为第3阈值以下的情...

【专利技术属性】
技术研发人员:森田真弘森纮一郎大谷大和
申请(专利权)人:东芝数字解决方案株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1