一种声音复刻的方法和系统技术方案

技术编号：34688118 阅读：11 留言：0更新日期：2022-08-27 16:21

本发明专利技术提供了一种声音复刻的方法和系统，所述方法包括S1、预训练说话人编码器：准备一说话人编码器，并对其进行预训练；S2、预训练语音合成模型：准备一语音合成模型，并对其进行预训练；S3、音频采集：向用户提供包含有若干文字量的示例文本，并采集用户诵读示例文本的示例音频；S4、训练合成器：对合成器进行微调训练；训练完成后的合成器与声码器组合形成的语音合成模型用于实现特定用户的语音复刻。本发明专利技术能够快速地利用极少量的样本，实现用户的声音复刻和语音合成，可广泛应用于有声阅读、智能客服、智能车载等领域。智能车载等领域。智能车载等领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种声音复刻的方法和系统

[0001]本专利技术涉及语音合成领域，具体涉及一种声音复刻的方法和系统。

技术介绍

[0002]随着语音合成技术的发展，大众开始追求更加个性化以及与自身更加具有亲近感的音色，固定音色的语音合成服务已不能满足实际场景的需求。而声音复刻技术的诞生满足了这一现实需求。
[0003]声音复刻技术是由语音合成技术发展而来，能够利用少量样本，快速地复刻出用户的声音，并达到高质量的合成效果。然而，现有的声音复刻技术需要利用大量训练样本，对音频质量的要求高，合成效果不稳定、鲁棒性差，有待改进和完善。

技术实现思路

[0004]本专利技术的目的在于针对现有技术中的问题，提供一种声音复刻的方法和系统，以实现快速地利用极少量的样本，复刻用户的声音，进行语音合成。
[0005]为实现上述目的，本专利技术采用以下技术方案：
[0006]一种声音复刻的方法，其特征在于，包括：
[0007]S1、预训练说话人编码器：准备一说话人编码器，并对其进行预训练；
[0008]所述说话人编码器包括用于提取说话人的音频特征的神经网络结构；
[0009]S2、预训练语音合成模型：准备一语音合成模型，并对其进行预训练；
[0010]所述语音合成模型包括合成器和声码器，所述合成器用于将文本转换成梅尔频谱，所述声码器用于将梅尔频谱转换为波形；
[0011]所述合成器包括文本编码器和特征解码器；文本编码器用于提取文本的文本特征，特征解码器用于根据提取的音频特征和...

【技术保护点】

【技术特征摘要】
1.一种声音复刻的方法，其特征在于，包括：S1、预训练说话人编码器：准备一说话人编码器，并对其进行预训练；所述说话人编码器包括用于提取说话人的音频特征的神经网络结构；S2、预训练语音合成模型：准备一语音合成模型，并对其进行预训练；所述语音合成模型包括合成器和声码器，所述合成器用于将文本转换成梅尔频谱，所述声码器用于将梅尔频谱转换为波形；所述合成器包括文本编码器和特征解码器；文本编码器用于提取文本的文本特征，特征解码器用于根据提取的音频特征和文本特征生成梅尔频谱；S3、音频采集：向用户提供包含有若干文字量的示例文本，并采集用户诵读示例文本的示例音频；S4、训练合成器：将示例音频输入到预训练好的说话人编码器，输出用户的音频特征；将示例文本输入到文本编码器，输出文本特征；将示例音频的音频特征和示例文本的文本特征一起输入到特征解码器，生成示例梅尔频谱，以此对合成器进行微调训练；训练完成后的合成器与声码器组合形成的语音合成模型用于实现特定用户的语音复刻。2.根据权利要求1所述的声音复刻的方法，其特征在于，在S3和S4之间还包括：S31、数据预处理：对S3中采集到的音频进行去噪处理、音量归一化处理和静音去除处理，并对示例文本进行文本正则化处理。3.根据权利要求1所述的声音复刻的方法，其特征在于，在S3中还包括：背景噪声检测：采用音频能量计算算法评估用户所处环境是否足够安静，当检测的能量高于设定的阈值时，提示用户到安静环境下进行录音；说话人音量检测：先对用户录制好的音频进行去噪，再检测音频能量大小，当检测的能量低于设定的阈值时，提示用户提高音量重新录制；发音准确率检测：将用户录制的音频转换成文本，再和示例文本进行比对，当准确率低于设定的阈值时，提示用户重新按照示例文本录制。4.根据权利要求1所述的声音复刻的方法，其特征在于，所述说话人编码器中的神经网络结构包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)和transformer网络中的至少一种。5.根据权利要求4所述的声音复刻的方法，其特征在于，所述说话人编码器中的神经网络结构由3层LST...

【专利技术属性】
技术研发人员：龚科，陈添水，
申请(专利权)人：拓元广州智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人