基于音频解耦和融合的零样本语音克隆方法及装置制造方法及图纸

技术编号:36024556 阅读:48 留言:0更新日期:2022-12-21 10:22
本发明专利技术公开了一种基于音频解耦和融合的零样本语音克隆方法及装置,包括将目标说话人的音频进行声学特征提取获取声学特征梅尔谱;采用音频内容编码器和音频音色编码器分别分离出声学特征梅尔谱的音色信息和内容信息;将音色信息集合进行特征融合,得到说话人音色嵌入表示,使得最终地说话人嵌入尽可能包含目标说话人的音色信息;为了提高解耦能力,引入了互信息约束,使得提取到的内容嵌入和音色嵌入之间的耦合程度尽可能低;将说话人音色嵌入表示和文本输入到零样本语音克隆模型,合成对应文本且带有目标说话人音色的梅尔谱;最终将梅尔谱输入到声码器中换成人耳可听的波形信号。本发明专利技术方法能提高克隆语音的说话人相似度。本发明专利技术方法能提高克隆语音的说话人相似度。本发明专利技术方法能提高克隆语音的说话人相似度。

【技术实现步骤摘要】
基于音频解耦和融合的零样本语音克隆方法及装置


[0001]本申请涉及语音合成
,特别是涉及一种基于音频解耦和融合的零样本语音克隆方法及装置。

技术介绍

[0002]随着人机语音交互技术的发展,语音合成的应用范围越来越广。如生活中常见的语音助手,智能音箱,地图导航等,以及近年来逐渐发展的有声读物,AI主播,歌唱合成等应用逐渐深入人们的生活。语音合成旨在对给定文本合成高质量语音,其中,小样本语音合成的研究目标是仅用很少语音数据学习该说话人声音的特点并进行语音合成。零样本语音克隆是小样本语音合成中的一种,该方向旨在探索极端情况下的小样本语音合成。即在获取目标说话人几句音频,不需要对模型进行训练的情况下,快速准确地进行语音克隆。但由于人类自然语音的表现力非常丰富,在说话人音色和韵律上变化很大,导致建模难度很大。所以零样本语音克隆是一个非常有挑战性的任务。

技术实现思路

[0003]本专利技术针对上述问题,提供了一种基于音频解耦和融合的零样本语音克隆方法及装置,零样本语音合成只需要提供目标说话人说的几句音频(称为参考音频),说话人编码部分能够从该音频中提取到和说话人音色相关的说话人嵌入,将提取的说话人嵌入加入语音合成模块中,合成目标说话人音色的语音。为了更好地从参考音频中获取说话人嵌入,本专利技术分别设计了音频音色编码器和音频内容编码器,用于对参考音频中的内容信息和音色信息分别进行提取。同时为了提高解耦能力,引入了互信息约束,使得提取到的内容嵌入和音色嵌入之间的耦合程度尽可能低。在零样本语音合成中,通常使用目标说话人单一音频来获取说话人表示。但是单一音频无法覆盖目标说话人音色的全部细节,其中包含的音色信息往往是有限的,这使得合成语音在说话人相似度上有偏差。为了能够获得足够的音色信息,本专利技术将采用目标说话人的多个参考音频作为输入,对每个参考音频分别提取音色信息,然后通过一个音色信息融合模块对若干音色信息进行融合,使得最终地说话人嵌入尽可能包含目标说话人的音色信息。
[0004]本专利技术的第一方面,一种基于音频解耦和融合的零样本语音克隆方法,包括以下步骤:
[0005]将目标说话人的音频进行声学特征提取获取声学特征梅尔谱;
[0006]采用音色和内容解耦模块分离出声学特征梅尔谱的音色信息和内容信息,其中所述音色和内容解耦模块包括音频内容编码器和音频音色编码器,音频内容编码器用于提取声学特征梅尔谱中和语言内容相关的内容信息,音频音色编码器用于提取声学特征梅尔谱中和说话人身份相关的音色信息;
[0007]将音色信息集合进行特征融合,得到说话人音色嵌入表示;
[0008]将说话人音色嵌入表示和文本输入到零样本语音克隆模型,合成对应文本且带有
目标说话人音色的梅尔谱,其中零样本语音克隆模型包括编码器、变分自适应器和解码器,编码器用于提取文本相关的隐状态,变分自适应器用于对输入的特征进行预测基频和预测输入文本特征的时长,解码器用于将输入的特征合成梅尔谱;
[0009]将带有目标说话人音色的梅尔谱输入到声码器中,将带有目标说话人音色的梅尔谱转换成人耳可听的波形信号。
[0010]进一步的,将目标说话人的音频进行声学特征提取获取音频特征梅尔谱,具体包括:
[0011]对输入的音频信号依次进行预加重、分帧和加窗处理,得到预处理后的音频信号;
[0012]将预处理后的音频信号依次进行短时傅里叶变换和梅尔谱变换得到声学特征梅尔谱。
[0013]进一步的,所述音频内容编码器包括编码模块、矢量量化层和对比预测模块,其中编码模块包括两个连续的卷积层、激活层和实例正则化层,编码模块用于将输入的声学特征梅尔谱生成连续特征向量;矢量量化层由K个不同的码组成可训练码本E,用于通过最近邻搜索将每个连续特征向量映射为K个码本之一,组成离散特征向量;对比预测模块为自回归结构,用于利用前t个时刻的离散特征向量生成上下文表示,并利用上下文表示预测之后n个时刻的离散特征向量。
[0014]进一步的,所述音频音色编码器包括一层卷积层、多层卷积银行以及平均池化层,输入的声学特征梅尔谱经过一层卷积核大小为8的卷积层进行特征维度转换得到维度转换特征向量;将维度转换特征向量经过6层卷积银行扩大感受野;将扩大感受野后的维度转换特征向量进行平均池化操作得到全局特征向量;将全局特征向量经过2层卷积银行进行特征转换后得到说话人的音色信息。
[0015]进一步的,通过降低音色和内容解耦模块分离出的音色信息和内容信息之间的互信息来提高音色信息和内容信息的解耦程度,具体包括:将音色和内容解耦模块分离出的音色信息和内容信息作为两个需要约束的约束变量,在整个方法模型训练过程中加入互信息上界的无偏估计损失。
[0016]进一步的,利用信息融合模块将音色信息集合进行特征融合,得到说话人音色嵌入表示,所述信息融合模块包括多头注意力机制模块和音色库,其中音色库为说话人音色的基向量作为注意力机制的值和键,多头注意力机制模块将音色信息作为查询,说话人音色库作为值和键,将每个音色向量和音色库的相似度分数取平均进而得到说话人音色嵌入表示。
[0017]进一步的,将说话人音色嵌入表示和文本输入到零样本语音克隆模型,合成对应文本且带有目标说话人音色的梅尔谱,具体包括:
[0018]将文本输入到编码器,提取文本相关的隐状态;
[0019]将说话人音色嵌入表示扩展到和文本一样的长度后和文本隐状态进行相加,得到融合特征;
[0020]将融合特征输入到变分自适应器预测融合特征的音高、能量以及文本特征的时长信息;
[0021]根据时长信息将融合特征扩展到帧级别的长度;
[0022]将扩展后的融合特征输入解码器中合成带有目标说话人音色的梅尔谱。
[0023]本专利技术的第二方面,提供了一种基于音频解耦和融合的零样本语音克隆装置,包括:
[0024]声学特征梅尔谱获取模块,用于将目标说话人的音频进行声学特征提取获取声学特征梅尔谱;
[0025]音色和内容解耦模块,用于分离出声学特征梅尔谱的音色信息和内容信息,其中所述音色和内容解耦模块包括音频内容编码器和音频音色编码器,音频内容编码器用于提取声学特征梅尔谱中和语言内容相关的内容信息,音频音色编码器用于提取声学特征梅尔谱中和说话人身份相关的音色信息;
[0026]音色信息融合模块,用于将音色信息集合进行特征融合,得到说话人音色嵌入表示;
[0027]音色梅尔普获取模块,用于将说话人音色嵌入表示和文本输入到零样本语音克隆模型,合成对应文本且带有目标说话人音色的梅尔谱,其中零样本语音克隆模型包括编码器、变分自适应器和解码器,编码器用于提取文本相关的隐状态,变分自适应器用于对输入的特征进行预测基频和预测输入文本特征的时长,解码器用于将输入的特征合成梅尔谱;
[0028]梅尔谱转换模块,用于将带有目标说话人音色的梅尔谱输入到声码器中,将带有目标说话人音色的梅尔谱转换成人耳可听的波形信号。
[0029]本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频解耦和融合的零样本语音克隆方法,其特征在于,包括以下步骤:将目标说话人的音频进行声学特征提取获取声学特征梅尔谱;采用音色和内容解耦模块分离出声学特征梅尔谱的音色信息和内容信息,其中所述音色和内容解耦模块包括音频内容编码器和音频音色编码器,音频内容编码器用于提取声学特征梅尔谱中和语言内容相关的内容信息,音频音色编码器用于提取声学特征梅尔谱中和说话人身份相关的音色信息;将音色信息集合进行特征融合,得到说话人音色嵌入表示;将说话人音色嵌入表示和文本输入到零样本语音克隆模型,合成对应文本且带有目标说话人音色的梅尔谱,其中零样本语音克隆模型包括编码器、变分自适应器和解码器,编码器用于提取文本相关的隐状态,变分自适应器用于对输入的特征进行预测基频和预测输入文本特征的时长,解码器用于将输入的特征合成梅尔谱;将带有目标说话人音色的梅尔谱输入到声码器中,将带有目标说话人音色的梅尔谱转换成人耳可听的波形信号。2.根据权利要求1所述的基于音频解耦和融合的零样本语音克隆方法,其特征在于,将目标说话人的音频进行声学特征提取获取音频特征梅尔谱,具体包括:对输入的音频信号依次进行预加重、分帧和加窗处理,得到预处理后的音频信号;将预处理后的音频信号依次进行短时傅里叶变换和梅尔谱变换得到声学特征梅尔谱。3.根据权利要求1所述的基于音频解耦和融合的零样本语音克隆方法,其特征在于,所述音频内容编码器包括编码模块、矢量量化层和对比预测模块,其中编码模块包括两个连续的卷积层、激活层和实例正则化层,编码模块用于将输入的声学特征梅尔谱生成连续特征向量;矢量量化层由K个不同的码组成可训练码本E,用于通过最近邻搜索将每个连续特征向量映射为K个码本之一,组成离散特征向量;对比预测模块为自回归结构,用于利用前t个时刻的离散特征向量生成上下文表示,并利用上下文表示预测之后n个时刻的离散特征向量。4.根据权利要求1所述的基于音频解耦和融合的零样本语音克隆方法,其特征在于,所述音频音色编码器包括一层卷积层、多层卷积银行以及平均池化层,输入的声学特征梅尔谱经过一层卷积核大小为8的卷积层进行特征维度转换得到维度转换特征向量;将维度转换特征向量经过6层卷积银行扩大感受野;将扩大感受野后的维度转换特征向量进行平均池化操作得到全局特征向量;将全局特征向量经过2层卷积银行进行特征转换后得到说话人的音色信息。5.根据权利要求1所述的基于音频解耦和融合的零样本语音克隆方法,其特征在于,通过降低音色和内容解耦模块分离出的音色信息和内容信息之间的互信息来提高音色信息和内容信息的解耦程度,具体包括:将音色和内容解耦模块分离出的音色信息和内容信息作为两个需要约束的约束变量,在整个方法模型训练过程中加入互信息上界的无偏估计损失。6...

【专利技术属性】
技术研发人员:汤步洲陈屹婷李婉婷
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1