一种产生新音色的语音合成方法技术

技术编号:22566700 阅读:69 留言:0更新日期:2019-11-16 12:44
本发明专利技术公开了一种产生新音色的语音合成方法,包括:利用多个音库数据对深度神经网络进行训练,形成第一合成模型;利用多个音库数据分别训练第一合成模型,形成与多个音库数据对应的多个第二合成模型;利用第一合成模型推理出第一输出参数;利用多个第二合成模型推理出与第二合成模型对应的多个第二输出参数,形成第二输出参数组;对第二输出参数组进行加权叠加形成声学参数;利用声码器重构声学参数形成合成语音。本发明专利技术提出的方法,能在不制作新音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。

A speech synthesis method for generating new timbre

The invention discloses a speech synthesis method for generating a new voice color, which comprises the following steps: training a depth neural network with multiple voice database data to form a first synthesis model; training a first synthesis model with multiple voice database data respectively to form a plurality of second synthesis models corresponding to multiple voice database data; reasoning the first output parameters with the first synthesis model; using a plurality of second synthesis models The second synthesis model infers multiple second output parameters corresponding to the second synthesis model to form the second output parameter group; the second output parameter group is weighted to form the acoustic parameters; the acoustic parameters are reconstructed by the vocoder to form the synthetic speech. The method proposed in the invention can realize the synthesis of new voice color without making a new voice library, can flexibly modulate the synthesized voice color according to the synthesis model corresponding to the existing voice voice library data, and the synthesis efficiency has no obvious change, avoiding the problems of complex process, long period and high cost of making a new voice library.

【技术实现步骤摘要】
一种产生新音色的语音合成方法
本专利技术涉及语音合成领域,特别涉及一种产生新音色的语音合成方法。
技术介绍
语音合成,又称文语转换(TexttoSpeech)技术,指的是将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。随着语音合成技术的发展,用户对合成语音音色的多样化和差异化要求越来越高,现有产生新音色的方法一般是通过定制一个新的发音人音库来得到新的音色。但定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
技术实现思路
本专利技术提供了一种产生新音色的语音合成方法,用以解决定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。本专利技术提供的一种产生新音色的语音合成方法,包括:利用多个音库数据对深度神经网络进行训练,形成第一合成模型;利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;利用所述第一合成模型推理出第一输出参数;利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;对所述第二输出参数组进行加权叠加形成声学参数;利用声码器重构所述声学参数形成合成语音。在本专利技术的一个实施例中,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;其中,所述声学特征包括频谱、能量、基频和时长;所述文本信息包括音素信息和韵律信息。在本专利技术的一个实施例中,利用多个音库数据对深度神经网络进行训练,包括:对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。在本专利技术的一个实施例中,对多个音库数据中的文本信息进行编码,包括:获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。在本专利技术的一个实施例中,对多个音库数据中的声学特征进行建模,包括:对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;对声学特征中的时长进行建模,得到1维二值数字。在本专利技术的一个实施例中,利用所述第一输入数据和所述第一输出数据训练深度神经网络,包括:利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;随机初始化所述深度神经网络的网络参数;基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:L(y,z)=‖y-z‖^2其中,y是自然的目标参数,z是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y,z)最小。在本专利技术的一个实施例中,利用所述多个音库数据分别训练所述第一合成模型,包括:对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;利用所述第二输入数据和所述第二输出数据对所述第一合成模型进行训练。在本专利技术的一个实施例中,所述第一输出参数的表达式为:h=g(WTx+b)其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。在本专利技术的一个实施例中,所述第二输出参数组的表达式为:yi=WTh+b其中,yi表示第二输出参数组,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。在本专利技术的一个实施例中,所述声学参数的表达式为:其中,表示声学参数,ai表示叠加权重,yi表示第二输出参数。本专利技术的一些有益效果可以包括:本专利技术提供的一种产生新音色的语音合成方法,能在不制作新的发音人音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。本专利技术的其它特征和优点将在随说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种产生新音色的语音合成方法的流程图;图2为本专利技术实施例中一种产生新音色的语音合成方法中深度神经网络的结构示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。图1为本专利技术实施例中一种产生新音色的语音合成方法的流程图。如图1所示,本专利技术提供的一种产生新音色的语音合成方法,包括:S101、利用多个音库数据对深度神经网络进行训练,形成第一合成模型;具体地,为了解决现有产生新音色的语音合成方法存在的缺陷,本实施例首先选择现有的多个发音人录制音库数据,在训练模型时,将这些发音人音库数据混合在一起训练基于深度神经网络(DeepNeuralNetwork,简称DNN)的合成模型,输入文本信息,输出为声学特征,得到的第一合成模型记为M_s。采用多个发音人训练,会将单个发音人的缺点模糊掉,最终训练出的模型趋向于一种多发音人平均的方向,从而得到一个较稳定的模型。其次,每个发音人都有其各自的特点,通过混合训练,可将不同的优势特征组合。第三,真实发音人在参数特征达不到最优,采用多个发音人训练可使语音合成效果得到明显优化。S102、利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;具体地,在得到第一合成模型M_s后,利用上述多个音库数据再分别对第一合成模型M_s进行训练,训练的规则是保证第一合成模型M_s的其他层权重参数不变,仅更新本文档来自技高网...

【技术保护点】
1.一种产生新音色的语音合成方法,其特征在于,包括:/n利用多个音库数据对深度神经网络进行训练,形成第一合成模型;/n利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;/n利用所述第一合成模型推理出第一输出参数;/n利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;/n对所述第二输出参数组进行加权叠加形成声学参数;/n利用声码器重构所述声学参数形成合成语音。/n

【技术特征摘要】
1.一种产生新音色的语音合成方法,其特征在于,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。


2.根据权利要求1所述的方法,其特征在于,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。


3.根据权利要求1所述的方法,其特征在于,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。


4.根据权利要求3所述的方法,其特征在于,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。


5.根据权利要求3所述的方法,其特征在于,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息...

【专利技术属性】
技术研发人员:孙见青
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1