一种语音合成方法及装置制造方法及图纸

技术编号:24097193 阅读:31 留言:0更新日期:2020-05-09 10:58
本发明专利技术公开了一种语音合成方法及装置,该方法包括:通过预设设备对用户依次录制N条语音信息;当预设设备录制完前N/2条语音信息时,将前N/2条语音信息发送至服务器端;通过前N/2条语音信息对服务器端的预设基线模型进行训练,以得到第一语音合成模型;当预设设备录制完后N/2条语音信息时,将后N/2条语音信息发送至服务器端;通过后N/2条语音信息对第一语音合成模型进行训练,以得到第二语音合成模型。通过本发明专利技术的技术方案,可以根据用户的需求合成具有用户自己说话方式或情感的语音合成模型,合成结果的自然度高,即与用户自己的说话方式、情感及用户声音中的音色相似度高,并且模型构建所花费的时间短,大大提升了用户体验。

A speech synthesis method and device

【技术实现步骤摘要】
一种语音合成方法及装置
本专利技术涉及语音合成
,特别涉及一种语音合成方法及装置。
技术介绍
语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。所谓个性化语音合成,就是通过身边的一些录音设备,录取某个人的某些语音片段后,让TTS(TextToSpeech)语音技术,合成出像某个特定人的说话语音,说话方式,和说话情感。目前,个性化语音合成时,对于不同年龄、不同性别的用户,均采用单一的语音合成模型,只能按照此模型中特有的说话方式、情感进行语音合成,这就使得语音合成的结果与用户自己的说话方式、情感及声音音色相似度低,极大的影响了用户的体验。
技术实现思路
本专利技术提供一种语音合成方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供了一种语音合成方法,包括:通过预设设备对用户依次录制N条语音信息,其中,N为正整数;当所述预设设备录制完前N/2条语音信息时,将所述前N/2条语音信息发送至服务器端;通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练,以得到第一语音合成模型;当所述预设设备录制完后N/2条语音信息时,将所述后N/2条语音信息发送至所述服务器端;通过所述后N/2条语音信息对所述第一语音合成模型进行训练,以得到第二语音合成模型,其中,所述第二语音合成模型用于语音合成。在一个实施例中,所述通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练,以得到第一语音合成模型,包括:当所述N条语音信息小于预设条数时,确定所述第一语音合成模型达到收敛状态;获取通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练的过程中产生的预设数目个模型;当所述N条语音信息大于或等于预设条数时,选取所述预设数目个模型中符合预设标准的模型作为所述第一语音合成模型。在一个实施例中,所述一种语音合成方法,还包括:将所述语音信息发送至所述服务器端之前,对所述语音信息进行降噪处理和筛选处理,将降噪处理和筛选处理完成之后的语音信息发送至所述服务器端。在一个实施例中,所述对所述语音信息进行筛选处理,包括:获取所述用户预存的第一声纹信息;提取所述语音信息中的第二声纹信息,以判断所述第一声纹信息与所述二声纹信息是否匹配;当所述第一声纹信息与所述第二声纹信息匹配时,根据预设标准对所述语音信息进行筛选。在一个实施例,所述第二语音合成模型已达到收敛状态。根据本专利技术实施例的第二方面,提供一种语音合成装置,包括:录制模块,用于通过预设设备对用户依次录制N条语音信息,其中,N为正整数;第一发送模块,用于当所述预设设备录制完前N/2条语音信息时,将所述前N/2条语音信息发送至服务器端;第一训练模块,用于通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练,以得到第一语音合成模型;第二发送模块,用于当所述预设设备录制完后N/2条语音信息时,将所述后N/2条语音信息发送至所述服务器端;第二训练模块,用于通过所述后N/2条语音信息对所述第一语音合成模型进行训练,以得到第二语音合成模型,其中,所述第二语音合成模型用于语音合成。在一个实施例中,所述第一训练模块,包括:确定子模块,用于当所述N条语音信息小于预设条数时,确定所述第一语音合成模型达到收敛状态;第一获取子模块,用于获取通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练的过程中产生的预设数目个模型;选取子模块,用于当所述N条语音信息大于或等于预设条数时,选取所述预设数目个模型中符合预设标准的模型作为所述第一语音合成模型。在一个实施例中,所述一种语音合成装置,还包括:处理模块,用于将所述语音信息发送至所述服务器端之前,对所述语音信息进行降噪处理和筛选处理,将降噪处理和筛选处理完成之后的语音信息发送至所述服务器端。在一个实施例中,所述处理模块,包括:第二获取子模块,用于获取所述用户预存的第一声纹信息;提取子模块,用于提取所述语音信息中的第二声纹信息,以判断所述第一声纹信息与所述二声纹信息是否匹配;筛选子模块,用于当所述第一声纹信息与所述第二声纹信息匹配时,根据预设标准对所述语音信息进行筛选。在一个实施例中,所述第二语音合成模型已达到收敛状态。本专利技术的实施例提供的技术方案可以包括以下有益效果:通过预设设备对用户依次录制N条语音信息,当预设设备录制完前N/2条语音信息时,就将前N/2条语音信息发送至服务器端,然后通过前N/2条语音信息对服务器端的预设基线模型进行训练,能够得到第一语音合成模型,当预设设备录制完后N/2条语音信息时,再将后N/2条语音信息发送至服务器端,进而通过后N/2条语音信息对第一语音合成模型进行训练,能够得到第二语音合成模型,之后就能够通过第二语音合成模型进行个性化语音的合成,相比于对于不同年龄不同性别的用户,均采用单一的语音合成模型而言,本专利技术的技术方案中,可以根据用户的需求合成具有用户自己说话方式或情感的语音合成模型,即当用户需要通过语音合成模型进行个性话语音合成时,可以依次录制用户自己的N条语音信息,通过前N\2条语音信息对预设基线模型进行训练,能够得到第一语音合成模型,且当用户急切需要进行个性化语音合成时,能够直接通过该第一语音合成模型进行合成,之后在第一语音合成模型的基础上,通过后N\2条语音信息对第一语音模型进行训练,能够得到满足用户需求的第二语音合成模型,且第二语音合成模型的合成的结果自然度高,即与用户自己的说话方式、情感及用户声音中的音色相似度高,由于训练模型时需要的语音条数较少,所以模型构建所花费的时间短,大大提高了用户的体验。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术一实施例中一种语音合成方法的流程图;图2为本专利技术一实施例中另一种语音合成方法的流程图;图3为本专利技术一实施例中一种语音合成装置的框图;图4为本专利技术一实施例中另一种语音合成装置的框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:/n通过预设设备对用户依次录制N条语音信息,其中,N为正整数;/n当所述预设设备录制完前N/2条语音信息时,将所述前N/2条语音信息发送至服务器端;/n通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练,以得到第一语音合成模型;/n当所述预设设备录制完后N/2条语音信息时,将所述后N/2条语音信息发送至所述服务器端;/n通过所述后N/2条语音信息对所述第一语音合成模型进行训练,以得到第二语音合成模型,其中,所述第二语音合成模型用于语音合成。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
通过预设设备对用户依次录制N条语音信息,其中,N为正整数;
当所述预设设备录制完前N/2条语音信息时,将所述前N/2条语音信息发送至服务器端;
通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练,以得到第一语音合成模型;
当所述预设设备录制完后N/2条语音信息时,将所述后N/2条语音信息发送至所述服务器端;
通过所述后N/2条语音信息对所述第一语音合成模型进行训练,以得到第二语音合成模型,其中,所述第二语音合成模型用于语音合成。


2.如权利要求1所述的方法,其特征在于,所述通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练,以得到第一语音合成模型,包括:
当所述N条语音信息小于预设条数时,确定所述第一语音合成模型达到收敛状态;
获取通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练的过程中产生的预设数目个模型;
当所述N条语音信息大于或等于预设条数时,选取所述预设数目个模型中符合预设标准的模型作为所述第一语音合成模型。


3.如权利要求1所述的方法,其特征在于,还包括:
将所述语音信息发送至所述服务器端之前,对所述语音信息进行降噪处理和筛选处理,将降噪处理和筛选处理完成之后的语音信息发送至所述服务器端。


4.如权利要求3所述的方法,其特征在于,所述对所述语音信息进行筛选处理,包括:
获取所述用户预存的第一声纹信息;
提取所述语音信息中的第二声纹信息,以判断所述第一声纹信息与所述二声纹信息是否匹配;
当所述第一声纹信息与所述第二声纹信息匹配时,根据预设标准对所述语音信息进行筛选。


5.如权利要求1所述的方法,其特征在于,所述第二语音合成模型已达到收敛状态。


6.一种语音合成装置,其特征在于,包括:

【专利技术属性】
技术研发人员:孙见青
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1