语音合成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：37138927 阅读：24 留言：0更新日期：2023-04-06 21:41

本公开涉及一种音合成方法、装置、电子设备及可读存储介质，其中，本方案通过预先训练的语音合成模型实现文本到目标音色的音频转换，语音合成模型包括第一特征提取子模型和第二特征提取子模型，其中，第一特征提取子模型根据输入的待处理文本，输出包括瓶颈特征的第一声学特征；第二特征提取子模型根据输入的第一声学特征，输出待处理文本对应的梅尔频谱特征；根据待处理文本对应的梅尔频谱特征，获取待处理文本对应的目标音频，目标音频具有目标音色。本方案通过包含瓶颈特征的第一声学特征，将语音合成模型解耦成两个模型，实现了音色和其他特征相对独立地对语音合成的控制，满足用户对于个性化语音合成的需求。足用户对于个性化语音合成的需求。足用户对于个性化语音合成的需求。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及可读存储介质

[0001]本公开涉及人工智能
，尤其涉及一种语音合成方法、装置、电子设备及可读存储介质。

技术介绍

[0002]TTS(text to speech，从文本到语音)是将文本转换为音频的技术，是当前较为流行的语音合成技术之一，已被广泛应用于各行各业。例如，视频创作、智能客服、智能朗读、智能配音等等。
[0003]随着人工智能技术的不断发展，语音合成技术深入到各个生产生活场景中，用户对于语音合成也提出了更高的要求，如个性化的语音合成。以视频创作场景为例，用户在进行视频创作时，想要将一段文本转换具有特定音色的音频，并将该特定音色的音频添加为视频的配乐，以提升视频的个性化。然而，如何实现文本到特定音色的音频转换是当前亟待解决的问题。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音合成方法、装置、电子设备及可读存储介质。
[0005]第一方面，本公开提供了一种语音合成方法，包括：
[0006]

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待处理文本；将所述待处理文本输入目标语音合成模型，获取所述目标语音合成模型输出的所述待处理文本对应的梅尔频谱序列；其中，所述目标语音合成模型包括：第一特征提取子模型和第二特征提取子模型，所述第一特征提取子模型用于根据输入的所述待处理文本，输出第一声学特征，所述第一声学特征包括所述待处理文本对应的瓶颈特征；所述第二特征提取子模型用于根据输入的所述第一声学特征，输出所述待处理文本对应的梅尔频谱特征；根据所述待处理文本对应的梅尔频谱特征，获取所述待处理文本对应的目标音频，所述目标音频具有目标音色。2.根据权利要求1所述的方法，其特征在于，所述第一特征提取子模型是根据第一样本音频对应的标注文本以及所述第一样本音频对应的第二声学特征，进行训练获得的，所述第二声学特征包括所述第一样本音频对应的第一标注瓶颈特征。3.根据权利要求2所述的方法，其特征在于，所述第二特征提取子模型是根据第二样本音频对应的第三声学特征和第一标注梅尔频谱特征、第三样本音频对应的第四声学特征和第二标注梅尔频谱特征，进行训练获得的；其中，所述第三声学特征包括所述第二样本音频对应的第二标注瓶颈特征；所述第四声学特征包括所述第三样本音频对应的第三标注瓶颈特征；且所述第三样本音频为具有所述目标音色的样本音频。4.根据权利要求3所述的方法，其特征在于，所述第一样本音频对应的第一标注瓶颈特征、所述第二样本音频对应的第二标注瓶颈特征以及所述第三样本音频对应的第三标注瓶颈特征是通过端到端语音识别模型的编码器分别对输入的所述第一样本音频、所述第二样本音频以及所述第三样本音频进行瓶颈特征提取获得的。5.根据权利要求3所述的方法，其特征在于，所述第二声学特征还包括：所述第一样本音频对应的第一标注基频特征；所述第三声学特征还包括：所述第二样本音频对应的第二标...

【专利技术属性】
技术研发人员：代东洋，陈远哲，陈力，王玉平，田乔，屠明，夏瑞，王雨轩，
申请(专利权)人：脸萌有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人