【技术实现步骤摘要】
【国外来华专利技术】语音合成方法、装置、计算机设备和存储介质
本专利技术涉及语音合成
,尤其涉及一种语音合成方法、装置、计算机设备和存储介质。
技术介绍
语音合成技术是指根据待合成的语音文本得到合成的语音的过程。在语音合成的过程中,深度生成模型大大提高了合成的语音的质量,譬如,WaveNet,与传统的语音合成器相比,表现出了卓越的性能。但是,WaveNet在语音合成的过程中,需要生成语音的采样点,并且,WaveNet是自回归模型,由于其自回归性质导致语音合成速度较慢,而且由于需要生成大量的语音采样点,再次导致语音合成速度变慢且过程繁杂。
技术实现思路
基于此,有必要针对上述问题,提出一种高效且简单的语音合成方法、装置、计算机设备和存储介质。一种语音合成方法,所述方法包括:获取待合成语音文本;根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;根据所述复数频谱得 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取待合成语音文本;/n根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;/n将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;/n根据所述复数频谱得到所述待合成语音文本对应的合成语音。/n
【技术特征摘要】
【国外来华专利技术】1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成语音文本;
根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
根据所述复数频谱得到所述待合成语音文本对应的合成语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述复数频谱得到所述待合成语音文本对应的合成语音,包括:
使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
3.根据权利要求1所述的方法,其特征在于,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;所述将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,包括:
将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;
将所述梅尔频谱对应的频谱特征输入所述上采样网络;
所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;
所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
4.根据权利要求1所述的方法,其特征在于,在所述获取待合成语音文本之前,还包括:
获取训练语音;
根据所述训练语音得到所述训练语音对应的梅尔频谱;
将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;
根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;
根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;
根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,包括:
根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数;
对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;
对所述第二实部信息和所述第二虚部信...
【专利技术属性】
技术研发人员:黄东延,盛乐园,熊友军,
申请(专利权)人:深圳市优必选科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。