语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:40069085 阅读:36 留言:0更新日期:2024-01-16 23:53
本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:对目标语音进行特征提取,得到目标语音特征,目标语音特征中目标粗粒度语音特征和目标细粒度语音特征表征信息不同;基于目标语音、待合成文本以及目标语音特征,确定待合成语音特征,待合成语音特征包括待合成粗粒度语音特征和待合成细粒度语音特征;基于待合成语音特征,确定待合成文本对应的合成语音,通过粗细粒度两个层面上蕴含了丰富的发音和音色的待合成语音特征进行语音合成,能够有效提升语音合成的效果,克服了目前合成语音在音色和发音习惯上存在欠缺,语音合成效果不佳的缺陷,优化了合成语音在音色和发音习惯上的逼真度,保证了合成语音的真实自然。

【技术实现步骤摘要】

本专利技术涉及语音合成,尤其涉及一种语音合成方法、装置、电子设备和存储介质


技术介绍

1、语音合成是人工智能研究领域的分支之一,旨在将输入的文本转换成语音输出,其广泛应用于智能助手、短视频以及小说阅读等场景。

2、目前,语音合成多采用端到端的语音合成声学模型,例如,自回归的transformer、tacotron等,此类模型以文本为输入,通过编码器进行编码,接着通过解码器解码以得到声学特征,从而合成语音。

3、然而,此种方式虽然已可以产生与自然语音接近的语音,但是,其仍然存在一些较为明显的缺陷,如对于人声音色、发音习惯等,目前合成语音与自然语音还有较大差距,简而言之,合成语音在音色和发音习惯上仍存在着明显不足,语音合成的效果欠佳。


技术实现思路

1、本专利技术提供一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中合成语音在音色和发音习惯上存在欠缺,语音合成效果不佳的缺陷,优化语音合成效果,保证合成语音的真实自然。

2、本专利技术提供一种语音合成方法,包括:...

【技术保护点】

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1所述的语音合成方法,其特征在于,所述目标语音的语种与所述待合成文本的语种不同;

3.根据权利要求2所述的语音合成方法,其特征在于,所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

4.根据权利要求2所述的语音合成方法,其特征在于,所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

5.根据权利要求2至4中任一项所述的语音合成方法,其特征在于,所述对所述目标语音和所述待合成文本进行音素提取,得到多语种音素序...

【技术特征摘要】

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1所述的语音合成方法,其特征在于,所述目标语音的语种与所述待合成文本的语种不同;

3.根据权利要求2所述的语音合成方法,其特征在于,所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

4.根据权利要求2所述的语音合成方法,其特征在于,所述基于所述多语种音素序列,以及所述目标粗粒度语音特征,确定待合成粗粒度语音特征,包括:

5.根据权利要求2至4中任一项所述的语音合成方法,其特征在于,所述对所述目标语音和所述待合成文本进行音素提取,得到多语种音素序列,包括:

6.根据权利要求2所述的语音合成方法,其特征在于,所述...

【专利技术属性】
技术研发人员:胡亚军王瑾薇方昕高建清刘聪胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1