The invention discloses a speech synthesis method for generating a new voice color, which comprises the following steps: training a depth neural network with multiple voice database data to form a first synthesis model; training a first synthesis model with multiple voice database data respectively to form a plurality of second synthesis models corresponding to multiple voice database data; reasoning the first output parameters with the first synthesis model; using a plurality of second synthesis models The second synthesis model infers multiple second output parameters corresponding to the second synthesis model to form the second output parameter group; the second output parameter group is weighted to form the acoustic parameters; the acoustic parameters are reconstructed by the vocoder to form the synthetic speech. The method proposed in the invention can realize the synthesis of new voice color without making a new voice library, can flexibly modulate the synthesized voice color according to the synthesis model corresponding to the existing voice voice library data, and the synthesis efficiency has no obvious change, avoiding the problems of complex process, long period and high cost of making a new voice library.
【技术实现步骤摘要】
一种产生新音色的语音合成方法
本专利技术涉及语音合成领域,特别涉及一种产生新音色的语音合成方法。
技术介绍
语音合成,又称文语转换(TexttoSpeech)技术,指的是将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。随着语音合成技术的发展,用户对合成语音音色的多样化和差异化要求越来越高,现有产生新音色的方法一般是通过定制一个新的发音人音库来得到新的音色。但定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
技术实现思路
本专利技术提供了一种产生新音色的语音合成方法,用以解决定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。本专利技术提供的一种产生新音色的语音合成方法,包括:利用多个音库数据对深度神经网络进行训练,形成第一合成模型;利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;利用所述第一合成模型推理出第一输出参数;利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;对所述第二输出参数组进行加权叠加形成声学参数;利用声码器重构所述声学参数形成合成语音。在本专利技术的一个实施例中,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;其中,所述声学特征包括频谱、能量、基频和时长;所述文本信息 ...
【技术保护点】
1.一种产生新音色的语音合成方法,其特征在于,包括:/n利用多个音库数据对深度神经网络进行训练,形成第一合成模型;/n利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;/n利用所述第一合成模型推理出第一输出参数;/n利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;/n对所述第二输出参数组进行加权叠加形成声学参数;/n利用声码器重构所述声学参数形成合成语音。/n
【技术特征摘要】
1.一种产生新音色的语音合成方法,其特征在于,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。
2.根据权利要求1所述的方法,其特征在于,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
3.根据权利要求1所述的方法,其特征在于,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
4.根据权利要求3所述的方法,其特征在于,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
5.根据权利要求3所述的方法,其特征在于,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息...
【专利技术属性】
技术研发人员:孙见青,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。