一种声音复刻的方法和系统技术方案

技术编号:34688118 阅读:11 留言:0更新日期:2022-08-27 16:21
本发明专利技术提供了一种声音复刻的方法和系统,所述方法包括S1、预训练说话人编码器:准备一说话人编码器,并对其进行预训练;S2、预训练语音合成模型:准备一语音合成模型,并对其进行预训练;S3、音频采集:向用户提供包含有若干文字量的示例文本,并采集用户诵读示例文本的示例音频;S4、训练合成器:对合成器进行微调训练;训练完成后的合成器与声码器组合形成的语音合成模型用于实现特定用户的语音复刻。本发明专利技术能够快速地利用极少量的样本,实现用户的声音复刻和语音合成,可广泛应用于有声阅读、智能客服、智能车载等领域。智能车载等领域。智能车载等领域。

【技术实现步骤摘要】
一种声音复刻的方法和系统


[0001]本专利技术涉及语音合成领域,具体涉及一种声音复刻的方法和系统。

技术介绍

[0002]随着语音合成技术的发展,大众开始追求更加个性化以及与自身更加具有亲近感的音色,固定音色的语音合成服务已不能满足实际场景的需求。而声音复刻技术的诞生满足了这一现实需求。
[0003]声音复刻技术是由语音合成技术发展而来,能够利用少量样本,快速地复刻出用户的声音,并达到高质量的合成效果。然而,现有的声音复刻技术需要利用大量训练样本,对音频质量的要求高,合成效果不稳定、鲁棒性差,有待改进和完善。

技术实现思路

[0004]本专利技术的目的在于针对现有技术中的问题,提供一种声音复刻的方法和系统,以实现快速地利用极少量的样本,复刻用户的声音,进行语音合成。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]一种声音复刻的方法,其特征在于,包括:
[0007]S1、预训练说话人编码器:准备一说话人编码器,并对其进行预训练;
[0008]所述说话人编码器包括用于提取说话人的音频特征的神经网络结构;
[0009]S2、预训练语音合成模型:准备一语音合成模型,并对其进行预训练;
[0010]所述语音合成模型包括合成器和声码器,所述合成器用于将文本转换成梅尔频谱,所述声码器用于将梅尔频谱转换为波形;
[0011]所述合成器包括文本编码器和特征解码器;文本编码器用于提取文本的文本特征,特征解码器用于根据提取的音频特征和文本特征生成梅尔频谱;
[0012]S3、音频采集:向用户提供包含有若干文字量的示例文本,并采集用户诵读示例文本的示例音频;
[0013]S4、训练合成器:将示例音频输入到预训练好的说话人编码器,输出用户的音频特征;将示例文本输入到文本编码器,输出文本特征;将示例音频的音频特征和示例文本的文本特征一起输入到特征解码器,生成示例梅尔频谱,以此对合成器进行微调训练;训练完成后的合成器与声码器组合形成的语音合成模型用于实现特定用户的语音复刻。
[0014]进一步地,在S3和S4之间还包括:S31、数据预处理:对S3中采集到的音频进行去噪处理、音量归一化处理和静音去除处理,并对示例文本进行文本正则化处理。
[0015]进一步地,在S3中还包括:
[0016]背景噪声检测:采用音频能量计算算法评估用户所处环境是否足够安静,当检测的能量高于设定的阈值时,提示用户到安静环境下进行录音;
[0017]说话人音量检测:先对用户录制好的音频进行去噪,再检测音频能量大小,当检测的能量低于设定的阈值时,提示用户提高音量重新录制;
[0018]发音准确率检测:将用户录制的音频转换成文本,再和示例文本进行比对,当准确率低于设定的阈值时,提示用户重新按照示例文本录制。
[0019]进一步地,所述说话人编码器中的神经网络结构包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)和transformer网络中的至少一种。
[0020]进一步地,所述说话人编码器中的神经网络结构由3层LSTM堆叠而成,每层LSTM具有256个单元;
[0021]所述说话人编码器还包括预处理单元和归一化处理单元;
[0022]所述预处理单元用于将音频处理成梅尔频谱后输入给神经网络结构;
[0023]所述归一化处理单元用于将神经网络结构的输出进行归一化处理。
[0024]进一步地,在S1中,说话人编码器通过多说话人数据或声纹识别数据集进行预训练;预训练完成后,说话人编码器的网络参数不再更新。
[0025]进一步地,在语音合成模型中,合成器采用Tacotron或FastSpeech网络结构,声码器采用WaveNet、WaveGlow、MelGAN或LPCNet网络结构。
[0026]进一步地,在S2中,语音合成模型通过多说话人语音合成数据进行预训练;训练完成后,声码器的网络参数不再更新,合成器的网络参数根据S4中的训练进行微调。
[0027]一种声音复刻系统,用于根据以上所述的方法进行声音复刻,包括说话人编码器、语音合成模型和音频采集模块;
[0028]所述说话人编码器用于提取说话人的音频特征;
[0029]所述语音合成模型包括合成器和声码器,所述合成器用于将文本转换成梅尔频谱,所述声码器用于将梅尔频谱转换为波形;所述合成器包括文本编码器和特征解码器;文本编码器用于提取文本的文本特征,特征解码器用于根据提取的音频特征和文本特征生成梅尔频谱;
[0030]所述音频采集模块用于向用户提供包含有若干文字量的示例文本,并采集用户诵读示例文本的示例音频。
[0031]进一步地,还包括发音检测模块,所述发音检测模块包括:
[0032]背景噪声检测模块:用于采用音频能量计算算法评估用户所处环境是否足够安静,当检测的能量高于设定的阈值时,提示用户到安静环境下进行录音;
[0033]说话人音量检测模块:用于先对用户录制好的音频进行去噪,再检测音频能量大小,当检测的能量低于设定的阈值时,提示用户提高音量重新录制;
[0034]发音准确率检测模块:用于将用户录制的音频转换成文本,再和示例文本进行比对,当准确率低于设定的阈值时,提示用户重新按照示例文本录制。
[0035]本专利技术提供的一种声音复刻的方法和系统,包含检测,复刻,合成等整个流程,能够适应各自不同的使用场景和用户。本专利技术能够快速地利用极少量的样本,实现用户的声音复刻和语音合成,可广泛应用于有声阅读、智能客服、智能车载等领域。
附图说明
[0036]图1是本专利技术实施例提供的一种声音复刻的方法的流程示意图。
具体实施方式
[0037]下面将结合附图和具体的实施例对本专利技术的技术方案进行详细说明。
[0038]如图1所示,本专利技术提供的一种声音复刻的方法,包括:
[0039]S1、预训练说话人编码器:准备一说话人编码器,并对其进行预训练;
[0040]由于声音复刻需要利用极少量的样本来训练出语音合成模型,因此从少量样本中准确提取出说话人的特征(Speaker embedding)是声音复刻的第一步,这就是说话人编码器的作用。为了获得能够区分出不同人音色的说话人特征,说话人编码器需要具备强大的判别能力来区分不同的说话人,因此通常使用说话人验证任务来训练模型。
[0041]具体地,所述说话人编码器包括用于提取说话人的音频特征的神经网络结构;所述神经网络结构包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)和transformer网络中的至少一种。在本实施例中,所述说话人编码器中的神经网络结构由3层LSTM堆叠而成,每层LSTM具有256个单元。
[0042]所述说话人编码器还包括预处理单元和归一化处理单元;
[0043]所述预处理单元用于将音频处理成梅尔频谱后输入给神本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音复刻的方法,其特征在于,包括:S1、预训练说话人编码器:准备一说话人编码器,并对其进行预训练;所述说话人编码器包括用于提取说话人的音频特征的神经网络结构;S2、预训练语音合成模型:准备一语音合成模型,并对其进行预训练;所述语音合成模型包括合成器和声码器,所述合成器用于将文本转换成梅尔频谱,所述声码器用于将梅尔频谱转换为波形;所述合成器包括文本编码器和特征解码器;文本编码器用于提取文本的文本特征,特征解码器用于根据提取的音频特征和文本特征生成梅尔频谱;S3、音频采集:向用户提供包含有若干文字量的示例文本,并采集用户诵读示例文本的示例音频;S4、训练合成器:将示例音频输入到预训练好的说话人编码器,输出用户的音频特征;将示例文本输入到文本编码器,输出文本特征;将示例音频的音频特征和示例文本的文本特征一起输入到特征解码器,生成示例梅尔频谱,以此对合成器进行微调训练;训练完成后的合成器与声码器组合形成的语音合成模型用于实现特定用户的语音复刻。2.根据权利要求1所述的声音复刻的方法,其特征在于,在S3和S4之间还包括:S31、数据预处理:对S3中采集到的音频进行去噪处理、音量归一化处理和静音去除处理,并对示例文本进行文本正则化处理。3.根据权利要求1所述的声音复刻的方法,其特征在于,在S3中还包括:背景噪声检测:采用音频能量计算算法评估用户所处环境是否足够安静,当检测的能量高于设定的阈值时,提示用户到安静环境下进行录音;说话人音量检测:先对用户录制好的音频进行去噪,再检测音频能量大小,当检测的能量低于设定的阈值时,提示用户提高音量重新录制;发音准确率检测:将用户录制的音频转换成文本,再和示例文本进行比对,当准确率低于设定的阈值时,提示用户重新按照示例文本录制。4.根据权利要求1所述的声音复刻的方法,其特征在于,所述说话人编码器中的神经网络结构包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)和transformer网络中的至少一种。5.根据权利要求4所述的声音复刻的方法,其特征在于,所述说话人编码器中的神经网络结构由3层LST...

【专利技术属性】
技术研发人员:龚科陈添水
申请(专利权)人:拓元广州智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1