【技术实现步骤摘要】
一种多说话人语音合成方法、装置及计算设备
本公开涉及语音合成
,尤其涉及一种多说话人语音合成方法、装置、可读存储介质及计算设备。
技术介绍
语音合成(TextToSpeech,TTS)是指计算机自动根据文本生成相应语音的技术。目前的语音合成系统需要使用大量的且高质量(需要专业录音设备进行录制)数据,且只能合成一种音色的声音。如需要搭建多个不同说话人音色的语音合成系统,需要耗费大量的财力与物力。目前主流的优化方法是使用多说话人语音合成技术(multi-speakerTTS),该技术可以通过一个系统合成出不同音色的声音。具体而言,多说话人语音合成系统在训练时,通过说话人ID(speakerid)区分不同说话人的声音。在合成声音阶段,通过传入不同的speakerid,生成不同说话人的声音。该技术相比于传统的单个说话人语音合成系统,可以结合多个说话人的语音数据,一方面增加了数据量,使得模型训练更加充分,另一方面可以提取不同音色声音的共性,使得模型更加鲁棒。在训练多说话人语音合成系统时,需要准备不同音色说话人的声 ...
【技术保护点】
1.一种多说话人语音合成方法,其特征在于,包括:/n获取包含至少两种声音类型的多说话人语音数据;/n对所述多说话人语音数据作数据增强处理;/n将所述多说话人语音数据输入多说话人语音合成系统进行数据训练;/n在对所述多说话人语音合成系统完成训练后,向所述多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示所述多说话人语音合成系统合成语音。/n
【技术特征摘要】 【专利技术属性】
1.一种多说话人语音合成方法,其特征在于,包括:
获取包含至少两种声音类型的多说话人语音数据;
对所述多说话人语音数据作数据增强处理;
将所述多说话人语音数据输入多说话人语音合成系统进行数据训练;
在对所述多说话人语音合成系统完成训练后,向所述多说话人语音合成系统输入包含指定说话人和指定文本的指令,指示所述多说话人语音合成系统合成语音。
2.如权利要求1所述的方法,其特征在于,对所述多说话人语音数据作数据增强处理,包括:
根据每种声音类型的说话人语音数据的数据量,确定需要数据增强处理的特定声音类型以及数据增强处理次数;
将所述特定声音类型的说话人语音数据转化为频域数据;
根据所述数据增强处理次数,依次将所述频域数据的一个或多个指定频率区间的能量值置零,分别生成所述特定声音类型的多个新的说话人语音数据;其中,所述指定频率区间预先在所述频域数据的频率范围内划分。
3.如权利要求2所述的方法,其特征在于,确定所述数据增强处理次数,包括:
根据所述特定声音类型的说话人语音数据的数据量和其它声音类型的说话人语音数据的数据量的比值,确定数据增强处理次数。
4.如权利要求2所述的方法,其特征在于,在所述频域数据的频率范围内划分所述指定频率区间,包括:
根据所述数据增强处理次数确定所述指定频率区间的个数;
根据所述指定频率区间的个数,在所述频域数据的频率范围内划分所述指定频率区间。
5.如权利要求2所述的方法,其特征在于,在所述频域数据的频率范围内划分所述指定频率区间,包括:
技术研发人员:殷昊,陈云琳,江明奇,雷欣,
申请(专利权)人:上海墨百意信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。