声音合成装置及声音合成方法制造方法及图纸

技术编号:13328740 阅读:39 留言:0更新日期:2016-07-11 18:55
声音合成装置及声音合成方法。从目标韵律中提取音高频率的时间变化作为音高序列。将提取出的音高序列的各频率值用适当的粗糙度进行量化。对于量化了的音高序列,通过运算时间方向的加权移动平均而进行时间方向的平滑化,计算出被平滑化了的音高序列。结果,能够对应于细微变动的音高序列而得到具有自然的音高变化的被平滑化了的音高序列。使通过波形合成方式而被波形连接的连接声音片段的各时间的音高改变,以对应于被平滑化了的音高序列的各时间的音高的值,对于音量序列也执行同样的处理,最终输出合成音。

【技术实现步骤摘要】
本申请基于2014年12月22日提出的日本专利申请第2014-259485号主张优先权,这里引用其全部内容。
本专利技术涉及声音合成装置及声音合成方法
技术介绍
已知有以下这样的声音合成技术:对于根据输入文本数据生成的合成目标,通过参照被电子化了的大规模的语言-声音数据即声音语料库(speechcorpus),来选择声音波形的片段(日语:素片)(以下记作“声音片段”),通过将该声音片段连接而输出合成声音。(例如:[a]“CHATR:自然声音波形连接型任意声音合成系统”(自然音声波形接続型任意音声合成システム),电子信息通信学会信学技法(電子情報通信学会信学技法),SP96-7.[b]“使用大规模语料库的声音合成系统XIMERA(大規模コーパスを用いた音声合成システムXIMERA)”,电子信息通信学会论文志(電子情報通信学会論文誌)DVol.J89-DNo.12pp.2688-2698.[c]河井恒,“知识库3-4语料库声音合成(知識ベース3-4コーパスベース音声合成)”,[online],ver.1/2011.1.7,电子信息通信学会(電子情報通信学会)”,[平成26年12月5日检索],因特网<URL:http://27.34.144.197/files/02/02gun_07hen_03.pdf#page=6>)在这样的声音合成技术中,作为用来从声音语料库选择最适合于合成目标的声音片段序列的方法,以往已知有以下这样的技术(例如非专利文献3所记载的技术)。首先,按从输入文本数据提取的每个音素序列(phonemesequences),将具有与该音素序列相同的音素序列的声音片段的数据(以下记作“片段数据”)作为片段候选数据从声音语料库中提取。接着,通过DP(DynamicProgramming:动态规划)算法,决定在输入文本数据整体中代价(cost)为最小的最优片段候选数据的组(最优片段数据序列)。作为代价,可以使用输入文本数据与声音语料库内的各片段数据间的音素序列及韵律的差异、作为片段候选数据的相邻的片段数据间的波谱包络(spectralenvelope)等声学参数(acousticparameter)(特征量向量数据)的不连续性等。与输入文本数据对应的音素序列通过例如对输入文本数据执行形态解析(morphologicalanalysis)处理来得到。与输入文本数据对应的韵律(prosody)(以下将其记作“目标韵律”)是各音素的声带(vocalcord)的基本频率即音高(pitch)的高度、持续时间长及强度(音量(power))。作为该目标韵律的指定方式,有基于从输入文本数据得到的语言信息、使用基于实际的声音数据的统计模型来生成的方法(例如,匂坂芳典(匂坂芳典),“知识库3-7韵律的生成(知識ベース3-7韻律の生成)”,[online],ver.1/2011.1.7,电子信息通信学会(電子情報通信学会),[平成26年12月5日检索],因特网<URL:http://27.34.144.197/files/02/02gun_07hen_03.pdf#page=13>)。语言信息例如可以通过对输入文本数据执行形态解析处理而得到。或者,作为目标韵律的指定方式,有用户以数值进行参数输入的方法。进而,作为目标韵律的指定方式,有通过由用户自身将文本发声等而给出的声音来指定的方法。与根据文本的推测和数值参数的调整相比,该方式有能够进行直观性的操作、能够进行感情和声调(intonation)的赋予等自由度高的目标韵律指定的优点。但是,在通过用户的声音输入进行的目标韵律指定方式中有以下那样的课题。首先,由于能够指定的目标韵律的自由度增加,所以需要能够与其对应的声音片段,如果想要使充分的量一致,则声音语料库的数据库会变得巨大。此外,在用户输入的声音的目标韵律和声音数据库内的声音片段所具有的韵律中,例如有声音的高度等依存于个人的不同点,难以选择适当的声音片段。为了解决上述课题,已知有在声音波形连接处理时通过信号处理将声音片段的以下要素修正、使其与用户输入的声音的目标韵律相适应的方法。1.各音素的持续时间长。2.音高(音的高低)。3.音量(音的大小)。但是,仅通过利用信号处理使用户输入的声音的目标韵律单纯地适应于从声音数据库选择的声音片段,会发生以下这样的问题。有在用户输入的声音的目标韵律中包含细小的音高和音量的变动的情况,如果使它们全部适应于声音片段,则由信号处理带来的音质的劣化变显著。此外,在用户输入的声音的目标韵律和声音片段的韵律(特别是音高)较大地不同的情况下,如果单纯地进行适应则合成声音的音质劣化。
技术实现思路
因此,本专利技术的目的在于,在波形连接方式的声音合成系统中,在通过声音输入指定目标韵律时,不需要使声音语料库的规模扩大而能够在维持高自由度的同时使合成声音的音质提高。在技术方案的一例中,具备处理部,该处理部执行:声调信息提取处理,从输入的声音数据中包含的韵律信息提取声调信息;以及输出处理,基于提取出的上述声调信息,将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更,基于将上述要素的至少一部分变更后的上述连接声音片段,输出合成声音。附图说明图1是声音合成装置的实施方式的框图。图2是表示声音DB的数据结构例的图。图3是表示声音合成装置的实施方式的硬件结构例的图。图4是表示声音合成处理的例子的流程图。图5是音高适应处理(pitchadaptationprocessing)的说明图。图6是音量适应处理(poweradaptationprocessing)的说明图。图7是表示音高适应处理的详细例的流程图。图8是表示音量适应处理的详细例的流程图。具体实施方式以下,参照附图对用来实施本专利技术的形态详细地说明。图1是声音合成装置100的实施方式的框图。声音合成装置100具备声音合成部101、声音数据库(以下记作“声音DB”)102、输入部103及输出部104。进而,声音合成部101具备文本解析模块105、韵律解析模块106、片段选择模块107、波形连接模块108、音高适应模块109、音量适应模块110及系统控制部111。此外,输入部103具备声音输入装置112及文本输入装置113。输出部104具备声音输出装置114。片段选择模块107及波形连接模块108对应于声音片段选择-连接部,音高适应模块109及音量适应模块110对应于声调信息提取部及声本文档来自技高网
...

【技术保护点】
一种声音合成装置,其特征在于,具备处理部,该处理部执行:声调信息提取处理,从输入的声音数据中包含的韵律信息提取声调信息;以及输出处理,基于提取出的上述声调信息,将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更,基于将上述要素的至少一部分变更后的上述连接声音片段,输出合成声音。

【技术特征摘要】
2014.12.22 JP 2014-2594851.一种声音合成装置,其特征在于,
具备处理部,该处理部执行:
声调信息提取处理,从输入的声音数据中包含的韵律信息提取声调信息;以及
输出处理,基于提取出的上述声调信息,将连接着多个声音片段的连接声音片段中包
含的要素的至少一部分变更,基于将上述要素的至少一部分变更后的上述连接声音片段,
输出合成声音。
2.如权利要求1所述的声音合成装置,其特征在于,
上述处理部还执行:
选择处理,基于输入的文本数据,选择多个声音片段;以及
连接处理,通过将所选择的上述多个声音片段连接,生成连接声音片段。
3.如权利要求2所述的声音合成装置,其特征在于,
上述输入的声音数据是语音数据,上述语音数据表示上述输入的文本数据。
4.如权利要求1所述的声音合成装置,其特征在于,
在上述输出处理中,上述处理部执行音高适应处理,该音高适应处理中,将上述连接声
音片段中包含的要素即音高序列进行变更,以使其适应于通过上述声调信息提取处理的执
行而提取出的声调信息。
5.如权利要求1所述的声音合成装置,其特征在于,
在上述声调信息提取处理中,上述处理部执行这样的处理,即:将上述输入的声音数据
中包含的作为韵律信息的音高序列的音高进行平滑化,提取上述音高被平滑化后的音高序
列作为上述声调信息。
6.如权利要求1所述的声音合成装置,其特征在于,
在上述声调信息提取处理中,上述处理部执行这样的处理,即:将构成上述输入的声音
数据中包含的作为韵律信息的音高序列的音高进行量化,将被量化了的上述音高进行加权
移动平均运算,从而生成上述音高被平滑化后的音高序列。
7.如权利要求4所述的声音合成装置,其特征在于,
在上述音高适应处理中,上述处理部还执行这样的处理,即:调整上述输入的声音数据

【专利技术属性】
技术研发人员:田中飞雄太
申请(专利权)人:卡西欧计算机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1