一种基于生成对抗式神经网络模型的语音转换方法技术

技术编号：37915387 阅读：9 留言：0更新日期：2023-06-21 22:37

本发明专利技术涉及语音转换技术，尤其涉及一种基于生成对抗式神经网络模型的语音转换方法。具体包括：S1、分别提取用户音频信息中的音频特征；S2、根据用户音频内容中的音频特征生成机器音频信息；S3、对用户音频信息与机器音频信息进行基于生成对抗式神经网络模型的循环拟合判断训练，将不同语言的音频特征自动转换为最接近用户表述情绪的机器音频信息。本发明专利技术中通过建立生成对抗式神经网络模型的语音转换方法，用以将语义，音高与音色特征单独提取，单独训练后再进行解码融合，从而用以对用户声音进行音色转换，实现非平行对齐下多种语言语义内容的语音转换功能。内容的语音转换功能。内容的语音转换功能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于生成对抗式神经网络模型的语音转换方法

[0001]本专利技术涉及语音转换技术，尤其涉及一种基于生成对抗式神经网络模型的语音转换方法。

技术介绍

[0002]语音转换是音频处理中的重要一环，通过进行语音转换操作，用以将输入的语音或文字在保留语义信息的同时转换为目标声音，从而将其应用于影视剧配音，说话人去特征化，以及娱乐化语音合成中。但是现有的语音转换中，通常为平行语音转换，即通过进行同种类型的输入输出语音对齐配准，用以进行数据语音数据的调整与转换，但是此种平行式语音转换方式仅适用于输入输出的语音数据为同类型数据，当输入输出的语音数据为不同语言下的非同类型数据时，则无法进行二者之间的对齐操作，从而降低了语音转换的转换精度，甚至导致语音转换操作失效。
[0003]公开号为CN110910895B的中国专利，提供了一种声音处理的方法、装置、设备和介质，此专利中通过获取用户输入语音中的音色与音调特征，并使用所提取的音色与音调特征对源音频的音色与音调进行调节，从而提高用户语音转换的辨识度，但是此专利中仅涉及了声音角度的调节，并未涉及语言数据角度的调节，因此无需进行数据转换配准操作。公开号为CN113689868B的中国专利，提供了一种语音转换模型的训练方法、装置、电子设备及介质，此专利中通过建立内容编码器与解码器，用以对原始语音内容进行分析和监督训练，从而提高语音转换的精度。但是此专利中所述的预测声学特征是在原始语义特征上提取加工的，因此仍不能进行不同语言下的非同类型数据的语义转换操作。
[0004]因此...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗式神经网络模型的语音转换方法，其特征在于，具体包括：S1、分别提取用户音频信息中的音频特征；S2、根据用户音频内容中的音频特征生成机器音频信息；S3、对用户音频信息与机器音频信息进行基于生成对抗式神经网络模型的循环拟合判断训练，将不同语言的音频特征自动转换为最接近用户表述情绪的机器音频信息。2.根据权利要求1中所述一种基于生成对抗式神经网络模型的语音转换方法，其特征在于，所述生成对抗式神经网络模型中，具体包括音频内容提取器，音频内容生成器，与音频内容判别器。3.根据权利要求2中所述一种基于生成对抗式神经网络模型的语音转换方法，其特征在于，其中所述音频内容提取器，对用户音频进行处理，并提取音频信息；其中所述音频信息包括用户内容特征与用户梅尔特征M1。4.根据权利要求2中所述一种基于生成对抗式神经网络模型的语音转换方法，其特征在于，所述音频内容生成器与音频内容判别器通过建立神经网络模型分别进行训练。5.根据权利要求3中所述一种基于生成对抗式神经网络模型的语音转换方法，其特征在于，将所述用户内容特征输入至内容编码网格中，生成用户内容编码特征；将所述用户梅尔特征M1输入至音色编码网格中，生成用户音色特征编码。6...

【专利技术属性】
技术研发人员：徐颖，凌天格，刘煌，
申请(专利权)人：上海格子互动信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人