语音转换及相应的模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：27617568 阅读：25 留言：0更新日期：2021-03-10 10:51

本申请公开了一种语音转换及相应的模型训练方法、装置、设备及存储介质，涉及机器学习与智能语音等人工智能技术领域。具体实现方案为：基于源语音的音频，提取源语音的特征信息；基于所述源语音的特征信息和要转换的目标音色信息，采用预先训练的语音转换模型，生成目标语音的声学特征信息；基于所述目标语音的声学特征信息，采用预先训练的声码器，合成目标语音的音频。本申请能够避免语音转换中信息的损失，有效地提高合成的目标语音的音频的准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
语音转换及相应的模型训练方法、装置、设备及存储介质

[0001]本申请涉及计算机
，具体涉及机器学习与智能语音等人工智能
，尤其涉及一种语音转换及相应的模型训练方法、装置、设备及存储介质。

技术介绍

[0002]语音转换在市场上变得越来越受关注。语音转换的目的是将源说话人的语音转为目标说话人的音色，并保持语音的表达内容不变。
[0003]现有技术中主要采用平行语料的语音转换。在录制所需的语料时，需要源说话人和目标说话人录制相同文本的音频。在模型训练时，由于每个人在读同一句话时，录得语音的时长肯定会有一些差异，因此从文本内容相同的音频中提取出的源说话人和目标说话人的特征序列长度也不同。因此需要通过一些对齐方法将源说话人和目标说话人的音频特征序列长度进行对齐，这样就可以构造一个模型，输入源说话人的特征序列去预测目标说话人的特征序列。在测试阶段，将源说话人语音提取特征输入模型，就可以预测得到目标说话人的特征序列，再通过声码器就可以将预测的特征序列转为语音了。

技术实现思路

[0004]本申请提供了一种语音转换及相应的模型训练方法、装置、设备及存储介质。
[0005]根据本申请的一方面，提供了一种语音转换方法，其中所述方法，包括：
[0006]基于源语音的音频，提取源语音的特征信息；
[0007]基于所述源语音的特征信息和要转换的目标音色信息，采用预先训练的语音转换模型，生成目标语音的声学特征信息；
[0008]基于所述目标语音的声学特征信息，采用预先训练的...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法，其中所述方法，包括：基于源语音的音频，提取源语音的特征信息；基于所述源语音的特征信息和要转换的目标音色信息，采用预先训练的语音转换模型，生成目标语音的声学特征信息；基于所述目标语音的声学特征信息，采用预先训练的声码器，合成目标语音的音频。2.根据权利要求1所述的方法，其中，基于所述源语音的特征信息和要转换的目标音色信息，采用预先训练的语音转换模型，生成目标语音的声学特征信息，包括：基于所述源语音的特征信息，采用预先训练的所述语音转换模型中的编码器进行编码处理，以去除所述源语音的源音色信息，获取到所述源语音的深度内容信息；基于要转换的所述目标音色信息和所述源语音的深度内容信息，采用预先训练的所述语音转换模型中的解码器，生成目标语音的声学特征信息。3.根据权利要求1所述的方法，其中，基于源语音的音频，提取源语音的特征信息，包括：基于所述源语音的音频，提取源语音的声学特征信息，作为所述源语音的特征信息；或者基于所述源语音的音频，提取源语音的声学特征信息和源音色信息；并将所述源语音的声学特征信息和所述源语音的源音色信息拼接，作为所述源语音的特征信息。4.根据权利要求1
‑
3任一所述的方法，其中，所述语音转换模型中的编码器采用至少一组下采样单元和上采样单元构成。5.一种语音转换模型的训练方法，其中，所述方法包括：采集数条训练语音的音频；基于各所述训练语音的音频，提取所述训练语音的训练特征信息和训练音色信息；基于各所述训练语音对应的所述训练特征信息和所述训练音色信息，训练语音转换模型。6.根据权利要求5所述的方法，其中，基于各所述训练语音的音频，提取所述训练语音的训练特征信息，包括：基于各所述训练语音的音频，提取所述训练语音的目标声学特征信息，作为所述训练语音的训练特征信息；或者基于各所述训练语音的音频，提取所述训练语音的目标声学特征信息和所述训练语音的音色信息；将所述训练语音的声学特征信息和所述训练语音的音色信息拼接，作为所述训练语音的训练特征信息。7.根据权利要求6所述的方法，其中，基于各所述训练语音对应的所述训练特征信息和所述训练音色信息，训练语音转换模型，包括：对于各所述训练语音，获取所述语音转换模型中的编码器基于所述训练语音对应的所述训练特征信息，得到的训练深度内容信息；获取所述语音转换模型中的解码器，基于所述训练深度内容信息和所述训练语音对应的所述训练音色信息，生成所述训练语音的预测声学特征信息；基于所述训练语音的目标声学特征信息和所述训练语音的预测声学特征信息，构建损
失函数；检测所述损失函数是否收敛；若未收敛，调整所述语音转换模型中的所述编码器和所述解码器的参数。使得所述损失函数趋于收敛。8.根据权利要求5
‑
7任一所述的方法，其中，所述语音转换模型中的编码器中采用至少一组采样块，各所述采样块包括下采样单元和上采样单元。9.一种语音转换装置，其中所述装置，包括：提取模块，用于基于源语音的音频，提取源语音的特征信息；生成模块，用于基于所述源语音的特征信息和要转换的目标音色信息，采用预先训练的语音转换模型，生成目标语音的声学特征信息；合成模块，用于基于所述目标语音的声学特征信息，采用预先训练的声码器，合成目标语音的音频。10.根据权利要求9所述的装置，其中，所述生成模块，包括：编码单元，用于基于所述源语音的特征信息，采用预先训练的所述语音转换模...

【专利技术属性】
技术研发人员：王俊超，陈昌滨，袁俊，聂志朋，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人