语音合成方法、语音合成装置、设备及存储介质制造方法及图纸

技术编号:41996117 阅读:24 留言:0更新日期:2024-07-12 12:21
本发明专利技术实施例提供一种语音合成方法、装置、设备及存储介质。方法包括:获取待合成的目标文本以及目标音频;分别对所述目标文本以及所述目标音频进行编码操作,得到对应的目标音素嵌入以及目标音色嵌入;将所述目标音素嵌入、所述目标音色嵌入输入至目标扩散模型,输出得到对应的目标梅尔频谱;基于所述目标梅尔频谱,确定所述目标文本以及所述目标音频对应的目标语音波形。本申请实施例旨在实现文本转换语音过程中,引入说话人的音频,从而能够通过得到更接近说话人音色的语音。尤其在银行电话客服领域,能够有效的提高语音合成的质量,进而提高客户的满意度。

【技术实现步骤摘要】

本申请涉及金融科技,尤其涉及一种语音合成方法、语音合成装置、计算机设备及计算机可读存储介质。


技术介绍

1、对于银行或者保险公司等金融类公司,几乎都采用智能语音客服作为前期沟通解纷的途径。这种方式能够有效降低人员成本,还能提高沟通效率,减轻工作人员的工作压力。智能语音客服不仅大大缩短了人工客服实际通话过程的时间,还通过相应的人机智能融合,极速处理客户需求。

2、目前的语音合成技术发展迅速,但是相关语音合成技术合成后的语音的自然度不是很理想,在应用于客服语音中时,客户会明显听出是机器的声音,导致客户选择直接拒绝智能语音客服,要求转为人工语音客服。因此,亟需一种语音合成方法,能够实现更接近“说话人”的音色,也即做到千人千声,以适应客户需求。


技术实现思路

1、本申请提供了一种语音合成方法、语音合成装置、计算机设备及计算机可读存储介质,旨在实现文本转换语音过程中,引入说话人的音频,从而能够通过扩散模型输出得到更接近说话人音色的语音。尤其在银行电话客服领域,能够有效的提高语音合成的质量,进而提高客户的满意本文档来自技高网...

【技术保护点】

1.一种语音合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述其中,所述目标音色嵌入包括若干音素,所述分别对所述目标文本以及所述目标音频进行编码操作,得到对应的目标音素嵌入以及目标音色嵌入之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述目标梅尔频谱,确定所述目标文本以及所述目标音频对应的目标语音波形,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述目标音素嵌入、所述目标音色嵌入输入至目标扩散模型之前,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于每一所述输入特征...

【技术特征摘要】

1.一种语音合成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述其中,所述目标音色嵌入包括若干音素,所述分别对所述目标文本以及所述目标音频进行编码操作,得到对应的目标音素嵌入以及目标音色嵌入之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述目标梅尔频谱,确定所述目标文本以及所述目标音频对应的目标语音波形,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述目标音素嵌入、所述目标音色嵌入输入至目标扩散模型之前,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于每一所述输入特征确定对应的初始梅尔频谱,包括:

6.根据权利要求5所述的方法,其特征在于,所述将每一所述隐藏...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁唐浩彬
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1