基于少量样本的说话人适应方法、语音翻译方法和系统技术方案

技术编号:38039286 阅读:13 留言:0更新日期:2023-06-30 11:05
本发明专利技术涉及语音合成技术领域,具体公开了一种基于少量样本的说话人适应方法、语音翻译方法和系统,包括获取具有文本标注的语音数据,对语音数据进行预处理生成梅尔频谱;构建个性化语音合成模型,将梅尔频谱和文本输入个性化语音合成模型中获得预测梅尔频谱;基于梅尔频谱和预测梅尔频谱预训练个性化语音合成模型,并进行微调;获取目标说话人的语音和任意文本信息,对目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;该方法将语音中的内容特征和话人特征分离开,解决少量样本语音合成的说话人相似度低的问题。人相似度低的问题。人相似度低的问题。

【技术实现步骤摘要】
基于少量样本的说话人适应方法、语音翻译方法和系统


[0001]本专利技术涉及语音合成
,具体涉及一种基于少量样本的说话人适应方法、语音翻译方法和系统。

技术介绍

[0002]少量样本说话人适应旨在利用少量目标说话人语音

文本对,来合成目标说话人的任意语音;而训练端到端TTS(语音合成)系统需要大量的文本

音频配对数据和高质量的录音,导致收集足够的语音数据的成本太高;因此,将TTS模型适应于具有少量样本的说话人自适应是近年来学术界和工业界的研究热点;目前的主流方法包括说话人自适应和说话人编码。
[0003]说话人自适应方法是使用少量的注册样本在训练好的多说话人TTS模型的基础上进行微调,但是,该方法通常需要至少上千步的微调才能达到高质量的自适应效果,很难部署到移动设备;而说话人编码方法为注册样本提取说话人向量,之后训练好的TTS模型可以以该说话人向量为条件输入输出指定用户的语音,然而,说话人编码器常常受到可见说话人和不可见说话人之间泛化差异的影响而表现欠佳,导致合成的语音和自己本身的语音的相似性较低。

技术实现思路

[0004]针对上述问题,本专利技术的一个目的是提供一种基于少量样本的说话人适应方法,该方法基于多颗粒度编码结构来实现少量样本说话人自适应,使用多颗粒度编码结构提取用户语音信号中相应的内容特征和说话人特征;将语音中的内容特征和包含音色、发音特色、停顿的说话人特征分离开,能解决少量样本语音合成的说话人相似度低的问题。
[0005]本专利技术的第二个目的是提供一种基于少量样本的说话人适应系统。
[0006]本专利技术的第三个目的是提供一种语音翻译方法,该方法对目标说话人的母语语音进行声学特征提取,将母语语音中的内容特征和包含音色、发音特色、停顿的说话人身份特征分离开,再将翻译得到的目标语言文本和说话人特征相结合,对目标语言文本进行个性化语音合成,达到个性化语音翻译的效果。
[0007]本专利技术的第四个目的是提供一种语音翻译系统。
[0008]本专利技术所采用的第一个技术方案是:一种基于少量样本的说话人适应方法,包括以下步骤:S100:获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;S200:构建个性化语音合成模型,将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;S300:基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成
模型进行微调,以获得训练好的个性化语音合成模型;S400:获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;其中,所述步骤S200包括以下子步骤:S210:将所述梅尔频谱输入到预处理网络中,获得预处理结果;以及通过GRU模块对所述预处理结果进行编码,从而获得隐藏层特征;S220:将所述预处理结果输入多颗粒度说话人编码器中,从而获得说话人特征;以及将所述隐藏层特征输入多颗粒度内容编码器中,从而获得内容特征;S230:将所述内容特征和所述说话人特征输入语音特征重构模块中,从而获得重构语音特征;S240:将所述文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;S250:将所述输出结果与文本特征进行拼接后输入变量适配器中,从而获得第一隐藏特征;S260:将所述第一隐藏特征输入梅尔谱图解码器中,从而获得预测梅尔频谱。
[0009]优选地,所述步骤S100中的预处理包括:将所述语音数据的语音波形通过短时傅立叶变换以及梅尔频谱的转换,生成梅尔频谱。
[0010]优选地,所述步骤S220中的多颗粒度内容编码器和多颗粒度说话人编码器均包括多颗粒度特征编码器,所述多颗粒度特征编码器含有4个不同尺度卷积,分别为1
×
1、3
×
3、5
×
5和7
×
7;3
×
3、5
×
5和7
×
7卷积后均依次连接有组归一化层、GeLU激活函数和带注意力机制的统计池化层。
[0011]优选地,所述步骤S230包括:所述内容特征经过语音特征重构模块中的实例归一化层,获得去除均值及方差的内容特征;所述说话人特征经过语音特征重构模块中的全连接层,获得新均值和新方差;将所述新均值和新方差替换到所述去除均值及方差的内容特征中,从而获得重构语音特征。
[0012]优选地,所述步骤S240包括:将所述重构语音特征作为参考注意模块的K及V;以及将所述文本特征与说话人特征进行拼接后,作为参考注意模块的Q;将Q、K和V输入参考注意模块,以获得参考注意模块输出的输出结果。
[0013]优选地,所述步骤S300包括:使用均方误差对预测梅尔频谱和梅尔频谱进行损失计算,基于损失对个性化语音合成模型进行预训练直至收敛,获得预训练好的个性化语音合成模型。
[0014]本专利技术所采用的第二个技术方案是:一种基于少量样本的说话人适应系统,包括预处理模块、模型构建模块、模型训练模块和个性化语音合成模块;所述预处理模块用于获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;
所述模型构建模块用于构建个性化语音合成模型,所述个性化语音合成模型包括预处理网络、GRU模块、多颗粒度内容编码器、多颗粒度说话人编码器、语音特征重构模块、参考注意模块、音素编码器、变量适配器和梅尔谱图解码器;将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;所述模型训练模块用于基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;所述个性化语音合成模块用于获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音。
[0015]优选地,所述个性化语音合成模型执行以下步骤以获得预测梅尔频谱:S210:将所述梅尔频谱输入到所述预处理网络中,获得预处理结果;以及通过所述GRU模块对所述预处理结果进行编码,从而获得隐藏层特征;S220:将所述预处理结果输入所述多颗粒度说话人编码器中,从而获得说话人特征;以及将所述隐藏层特征输入所述多颗粒度内容编码器中,从而获得内容特征;S230:将所述内容特征和所述说话人特征输入语音特征重构模块中,从而获得重构语音特征;S240:将所述文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;S25本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于少量样本的说话人适应方法,其特征在于,包括以下步骤:S100:获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;S200:构建个性化语音合成模型,将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;S300:基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;S400:获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;其中,所述步骤S200包括以下子步骤:S210:将所述梅尔频谱输入到预处理网络中,获得预处理结果;以及通过GRU模块对所述预处理结果进行编码,从而获得隐藏层特征;S220:将所述预处理结果输入多颗粒度说话人编码器中,从而获得说话人特征;以及将所述隐藏层特征输入多颗粒度内容编码器中,从而获得内容特征;S230:将所述内容特征和所述说话人特征输入语音特征重构模块中,从而获得重构语音特征;S240:将文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;S250:将所述输出结果与文本特征进行拼接后输入变量适配器中,从而获得第一隐藏特征;S260:将所述第一隐藏特征输入梅尔谱图解码器中,从而获得预测梅尔频谱。2.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S100中的预处理包括:将所述语音数据的语音波形通过短时傅立叶变换以及梅尔频谱的转换,生成梅尔频谱。3.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S220中的多颗粒度内容编码器和多颗粒度说话人编码器均包括多颗粒度特征编码器,所述多颗粒度特征编码器含有4个不同尺度卷积,分别为1
×
1、3
×
3、5
×
5和7
×
7;3
×
3、5
×
5和7
×
7卷积后均依次连接有组归一化层、GeLU激活函数和带注意力机制的统计池化层。4.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S230包括:所述内容特征经过语音特征重构模块中的实例归一化层,获得去除均值及方差的内容特征;所述说话人特征经过语音特征重构模块中的全连接层,获得新均值和新方差;将所述新均值和新方差替换到所述去除均值及方差的内容特征中,从而获得重构语音特征。5.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S240包括:将所述重构语音特征作为参考注意模块的K及V;以及将所述文本特征与说话人特征进行拼接后,作为参考注意模块的Q;将Q、K...

【专利技术属性】
技术研发人员:柯登峰佟运佳徐艳艳王运峰
申请(专利权)人:澳克多普有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1