语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36189738 阅读：22 留言：0更新日期：2022-12-31 21:02

本发明专利技术涉及音频处理技术领域，提供一种语音合成方法、装置、电子设备及存储介质。利用预设声学模型从待处理文本中提取声学特征得到待处理文本的目标声学特征；利用预先训练的基频预测器从目标声学特征中提取基频特征得到目标基频特征，并利用预先训练的能量预测器从目标声学特征中提取能量特征得到目标能量特征；将目标声学特征、目标基频特征和目标能量特征输入预先训练的通用声码器，生成待处理文本的语音音频；通用声码器是基于多个说话人的语音音频训练得到的。通过将声学特征、基频特征和能量特征作为声码器的输入以进行语音合成，且声码器由多个说话人的语音训练获得，使声码器具有通用性，降低了声码器的训练时长并保证了语音合成的效果。保证了语音合成的效果。保证了语音合成的效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质

[0001]本专利技术涉及音频处理
，具体而言，涉及一种语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成技术(Text
‑
to
‑
Speech)是指将文本转换为语音音频，其常用于人机交互、有声书朗读等场景。语音合成模型通常包括声学模型和声码器，声学模型用于将文本转换为声学特征，声码器用于将声学特征转换为语音音频。
[0003]目前，在为某个特定音色构建语音合成模型时，往往是基于该音色对应的说话人的语音来训练专用的声码器，但是训练专用的声码器需要耗费大量的时间并且训练样本有限，从而导致语音合成的效果差和效率低。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提供一种语音合成方法、装置、电子设备及存储介质。
[0005]为了实现上述目的，本专利技术实施例采用的技术方案如下：
[0006]第一方面，本专利技术提供一种语音合成方法，所述方法包括：
[0007]利用预设声学...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：利用预设声学模型从待处理文本中提取声学特征，得到所述待处理文本的目标声学特征；利用预先训练的基频预测器从所述目标声学特征中提取基频特征，得到目标基频特征；利用预先训练的能量预测器从所述目标声学特征中提取能量特征，得到目标能量特征；将所述目标声学特征、所述目标基频特征和所述目标能量特征输入预先训练的通用声码器，生成所述待处理文本的语音音频；所述通用声码器是基于多个说话人的语音音频训练得到的。2.根据权利要求1所述的方法，其特征在于，所述通用声码器是按照以下方式训练得到的：获取多个说话人的语音音频，得到多个音频样本；从每个所述音频样本中提取声学特征、基频特征和能量特征，得到每个所述音频样本的实际声学特征、实际基频特征和实际能量特征；将每个所述音频样本的实际声学特征、实际基频特征和实际能量特征输入初始声码器，生成每个所述音频样本对应的合成音频；基于每个所述音频样本及其对应的合成音频，对所述初始声码器进行训练，得到所述通用声码器。3.根据权利要求2所述的方法，其特征在于，所述基于每个所述音频样本及其对应的合成音频，对所述初始声码器进行训练，得到所述通用声码器的步骤，包括：对于每个所述音频样本，将所述音频样本及其对应的合成音频输入预设鉴别器，并利用所述预设鉴别器计算所述音频样本与其对应的合成音频的相似度获得所述音频样本对应的相似度，得到每个所述音频样本对应的相似度；基于每个所述音频样本对应的相似度对所述初始声码器进行训练，直至每个所述音频样本对应的相似度均达到预设阈值，得到所述通用声码器。4.根据权利要求1所述的方法，其特征在于，所述基频预测器是按照以下方式训练得到的：获取多个说话人的语音音频，得到多个音频样本；从每个所述音频样本中提取声学特征和基频特征，得到每个所述音频样本的实际声学特征和实际基频特征；对于每个所述音频样本，将所述音频样本的实际声学特征输入初始基频预测器获得所述音频样本的预测基频特征，得到每个所述音频样本的预测基频特征；基于每个所述音频样本的实际基频特征和预测基频特征，对所述初始基频预测器进行训练，得到所述基频预测器。5.根据权利要求4所述的方法，其特征在于，所述初始基频预测器包括两个卷积层和一个线性映射层；所述将所述音频样本的实际声学特征输入初始基频预测器获得所述音频样本的预测基频特征的步骤，包括：
将所述音频样本的实际声学特征输入所述初始基频预测器中...

【专利技术属性】
技术研发人员：游于人，贺来朋，周鸿斌，卢恒，
申请(专利权)人：上海喜马拉雅科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人