一种多说话人语音合成方法、装置及计算设备制造方法及图纸

技术编号:25693200 阅读:19 留言:0更新日期:2020-09-18 21:04
本公开提供了一种多说话人语音合成方法、装置、可读存储介质及计算设备,解决了多说话人语音合成中,不同声音类型的语音数据的数据量不平衡,导致语音合成质量下降的问题,方法包括:获取包含至少两种声音类型的多说话人语音数据;对所述多说话人语音数据作数据增强处理;将所述多说话人语音数据输入多说话人语音合成系统进行数据训练;在对所述多说话人语音合成系统完成训练后,向所述多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示所述多说话人语音合成系统合成语音。

【技术实现步骤摘要】
一种多说话人语音合成方法、装置及计算设备
本公开涉及语音合成
,尤其涉及一种多说话人语音合成方法、装置、可读存储介质及计算设备。
技术介绍
语音合成(TextToSpeech,TTS)是指计算机自动根据文本生成相应语音的技术。目前的语音合成系统需要使用大量的且高质量(需要专业录音设备进行录制)数据,且只能合成一种音色的声音。如需要搭建多个不同说话人音色的语音合成系统,需要耗费大量的财力与物力。目前主流的优化方法是使用多说话人语音合成技术(multi-speakerTTS),该技术可以通过一个系统合成出不同音色的声音。具体而言,多说话人语音合成系统在训练时,通过说话人ID(speakerid)区分不同说话人的声音。在合成声音阶段,通过传入不同的speakerid,生成不同说话人的声音。该技术相比于传统的单个说话人语音合成系统,可以结合多个说话人的语音数据,一方面增加了数据量,使得模型训练更加充分,另一方面可以提取不同音色声音的共性,使得模型更加鲁棒。在训练多说话人语音合成系统时,需要准备不同音色说话人的声音数据作为训练数据。通常,为了保持不同声音类型的平衡,会准备数量相当的男生/女生,成人/儿童的声音。但在现实中,往往会出现某一种类型声音数据非常少量的情况,如果训练数据中某种音色声音相对于其他音色声音非常稀少,将会导致最后合成的声音与真实的声音不太像。传统的做法是继续增加该类型的声音数据,这样的确可以改善数据类型不平衡问题,但是由于训练语音合成系统所需的声音数据录制非常昂贵,会大大的提高成本。r>
技术实现思路
为此,本公开提供了一种多说话人语音合成方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。根据本公开实施例的一个方面,提供了一种多说话人语音合成方法,包括:获取包含至少两种声音类型的多说话人语音数据;对多说话人语音数据作数据增强处理;将多说话人语音数据输入多说话人语音合成系统进行数据训练;在对多说话人语音合成系统完成训练后,向多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示多说话人语音合成系统合成语音。可选地,对多说话人语音数据作数据增强处理,包括:根据每种声音类型的说话人语音数据的数据量,确定需要数据增强处理的特定声音类型以及数据增强处理次数;将特定声音类型的说话人语音数据转化为频域数据;根据所述数据增强处理次数,依次将所述频域数据的一个或多个指定频率区间的能量值置零,分别生成所述特定声音类型的多个新的说话人语音数据;其中,所述指定频率区间预先在所述频域数据的频率范围内划分。可选地,确定数据增强处理次数,包括:根据特定声音类型的说话人语音数据的数据量和其它声音类型的说话人语音数据的数据量的比值,确定数据增强处理次数。可选地,在所述频域数据的频率范围内划分所述指定频率区间,包括:根据所述数据增强处理次数确定所述指定频率区间的个数;根据所述指定频率区间的个数,在所述频域数据的频率范围内划分所述指定频率区间。可选地,在频域数据的频率范围内均匀地划分指定频率区间;或者,根据人类语音特征,在频域数据的频率范围内不均匀地划分指定频率区间;或者,采用机器学习方式,确定多说话人语音合成结果最优的指定频率区间的划分方式。可选地,将特定声音类型的说话人语音数据转化为频域数据时,使用快速傅里叶变换方法。可选地,获取包含至少两种声音类型的多说话人语音数据,包括:获取包括成年男声、成年女声、男童声和女童声中的至少两种声音类型的多说话人语音数据。根据本公开实施例的又一方面,提供一种多说话人语音合成装置,包括:数据采集单元,用于获取包含至少两种声音类型的多说话人语音数据;数据增强单元,用于对多说话人语音数据作数据增强处理;训练单元,用于将多说话人语音数据输入多说话人语音合成系统进行数据训练;语音合成单元,用于在对多说话人语音合成系统完成训练后,向多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示多说话人语音合成系统合成语音。根据本公开实施例的又一方面,提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行上述的多说话人语音合成方法。根据本公开实施例的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行上述的多说话人语音合成方法。根据本公开实施例,获取包含至少两种声音类型的多说话人语音数据;对多说话人语音数据作数据增强处理;将多说话人语音数据输入多说话人语音合成系统进行数据训练;在对多说话人语音合成系统完成训练后,向多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示多说话人语音合成系统合成语音;实现了在多说话人语音合成系统中,通过数据增强方法,解决数据不平衡的问题,同时没有增加额外的成本开销;在本公开的另一实施例中,提出一种新颖的数据增强方法,通过屏蔽某段频率上的能量值,达到增加数据的目的,并且验证了该数据增强方法可以训练出更优的多说话人语音合成系统。附图说明附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1是示例性的计算设备的结构框图;图2是根据本公开实施例的一种多说话人语音合成方法的流程图;图3是根据本公开实施例的一种多说话人语音合成方法中数据增强处理的流程图;图4是根据本公开具体实施例的一种多说话人语音合成方法的流程图;图5是根据本公开实施例的一种多说话人语音合成装置的结构图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1布置为实现根据本公开的一种多说话人语音合成方法的示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以本文档来自技高网...

【技术保护点】
1.一种多说话人语音合成方法,其特征在于,包括:/n获取包含至少两种声音类型的多说话人语音数据;/n对所述多说话人语音数据作数据增强处理;/n将所述多说话人语音数据输入多说话人语音合成系统进行数据训练;/n在对所述多说话人语音合成系统完成训练后,向所述多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示所述多说话人语音合成系统合成语音。/n

【技术特征摘要】
1.一种多说话人语音合成方法,其特征在于,包括:
获取包含至少两种声音类型的多说话人语音数据;
对所述多说话人语音数据作数据增强处理;
将所述多说话人语音数据输入多说话人语音合成系统进行数据训练;
在对所述多说话人语音合成系统完成训练后,向所述多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示所述多说话人语音合成系统合成语音。


2.如权利要求1所述的方法,其特征在于,对所述多说话人语音数据作数据增强处理,包括:
根据每种声音类型的说话人语音数据的数据量,确定需要数据增强处理的特定声音类型以及数据增强处理次数;
将所述特定声音类型的说话人语音数据转化为频域数据;
根据所述数据增强处理次数,依次将所述频域数据的一个或多个指定频率区间的能量值置零,分别生成所述特定声音类型的多个新的说话人语音数据;其中,所述指定频率区间预先在所述频域数据的频率范围内划分。


3.如权利要求2所述的方法,其特征在于,确定所述数据增强处理次数,包括:
根据所述特定声音类型的说话人语音数据的数据量和其它声音类型的说话人语音数据的数据量的比值,确定数据增强处理次数。


4.如权利要求2所述的方法,其特征在于,在所述频域数据的频率范围内划分所述指定频率区间,包括:
根据所述数据增强处理次数确定所述指定频率区间的个数;
根据所述指定频率区间的个数,在所述频域数据的频率范围内划分所述指定频率区间。


5.如权利要求2所述的方法,其特征在于,在所述频域数据的频率范围内划分所述指定频率区间,包括:

【专利技术属性】
技术研发人员:殷昊陈云琳江明奇雷欣
申请(专利权)人:上海墨百意信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1