【技术实现步骤摘要】
基于生成对抗网络的短语音样本补偿方法及存储介质
本专利技术属于说话人识别领域,特别是一种基于生成对抗网络的短语音样本补偿方法。
技术介绍
高斯混合-通用背景模型(GMM-UBM)作为一种关键方法,在说话人识别系统中只有在说话人语音较长时才能达到较好的识别效果。而在短语音环境中,识别率性能会急剧下降,事实上,一个简短的话语意味着该话语含有不充分的声学特征。在这种情况下,基于统计属性的说话人模型不能很好地描述说话人,说话人模型虽然具有明显的特征特异性,但由于特征数量太少,仍然容易受到噪声的干扰。在过去的几年中,深度学习在说话人识别领域已经非常流行,许多方法使用深度学习来解决短语音样本不足问题。从直观上看,深度学习模型具有较强的特征学习能力,有助于解决这一问题。然而,训练深层神经网络需要大量的数据,短语音含有较少的说话人身份信息,这是构建使用深度学习的说话人识别系统的最大障碍之一。因此,本专利技术提出一种基于生成对抗网络的短语音样本补偿方法及存储介质,使补偿后的短语音字说话人识别系统中具有更高的识别率和更好的鲁棒性。 >
技术实现思路
...
【技术保护点】
1.一种基于生成对抗网络的短语音样本补偿方法,其特征在于,包括以下步骤:/nS1,采用麦克风获取语音信号;/nS2,对步骤S1获取的所有语音数据依次进行预加重、分帧、加窗、快速傅里叶变换、Mel滤波及离散余弦变换在内的预处理,提取说话人语音信号的个性身份特征——梅尔频率倒谱系数MFCC,分割语音信号获取短语音;/nS3,构建生成对抗网络模型,它由生成器模型G和判别器模型D两个模型构成,随机噪声矢量z通过生成模型G生成尽量服从真实数据分布P
【技术特征摘要】
1.一种基于生成对抗网络的短语音样本补偿方法,其特征在于,包括以下步骤:
S1,采用麦克风获取语音信号;
S2,对步骤S1获取的所有语音数据依次进行预加重、分帧、加窗、快速傅里叶变换、Mel滤波及离散余弦变换在内的预处理,提取说话人语音信号的个性身份特征——梅尔频率倒谱系数MFCC,分割语音信号获取短语音;
S3,构建生成对抗网络模型,它由生成器模型G和判别器模型D两个模型构成,随机噪声矢量z通过生成模型G生成尽量服从真实数据分布Pdata的样本G(z),判别模型D可以判断出输入样本是真实数据x还是生成数据G(z);
S4,构建生成对抗网络模型的优化目标函数V(D,G),进行模型训练;
S5,构建面向模型的学习任务——生成器补偿性能衡量训练任务及判别器特征标签训练任务,生成器补偿性能衡量训练任务用于减小补偿语音分布与真实语音分布的偏差,判别器特征标签训练任务用于提高补偿语音说话人区分能力。
2.根据权利要求1所述的一种基于生成对抗网络的短语音样本补偿方法,其特征在于,所述步骤S2具体步骤包括:
S21:对所有语音信号依次进行预加重、分帧、加窗、快速傅里叶变换。再计算功率谱,将得到的功率谱通过三角带通滤波器,滤波输出的结果利用Mel域与线性频率的关系式转为对数形式:
最后经离散余弦变换得到MFCC特征参数的第i维特征分量Ci的表达式为:
m表示滤波器的数量,通常为20~28。将得到的说话人语音信号的MFCC作为身份个性特征;
S22:分割语音信号获取短语音,构成长语音和短语音对。
3.根据权利要求2所述的一种基于生成对抗网络的短语音样本补偿方法,其特征在于,所述步骤S3中构建的生成对抗网络模型具体为:
S31:生成对抗网络模型的生成器G是一个深度神经网络,使用短语音z作为生成器G的输入,短语音样本经过生成器G得到补偿语音样本G(z),判别器D是一个充当二元分类器的深度神经网络,相同条件下,把经过生成器G补偿后的短语音样本G(z)和真实长语音样本x交替作为鉴别器D的输入,判别器D判断所给语音是真实长语音样本或是由生成器补偿得到;
S32:在模型中使用生成对抗网络的条件版本,即条件生成对抗网络CGAN,它是在GAN的基础上加上了条件扩展为条件模型,所以,生成器G和判别器D的隐藏层都引入了说话人身份个性特征条件c——梅尔频率倒谱系数MFCC,更好地引导短语音到补偿语音的映射过程。
4.根据权利要求3所述的一种基于生成对抗网络的短语音样本补偿方法,其特征在于,所述步骤S4构建生成对抗网络模型的目标优化函数V(D,G),同时进行模型训练,具体包括:
S41:生成对抗网络条件版本,它对于目标函数V(D,G)的优化过程如下式所示:
其中,Ex~Pdata(x)[logD(x|c)]表示在条件c的引导下判别器D判断真实长语音数据x为是否为真实的概率,Ez~Pdata(z)[log(1-D(G(z|c)|c))]表示短语音z在同样条件信息输入下生成器产生的补偿样本,然后判别器D判断其是否为真实数据的概率;
S42:在训练过程中,生成器G的目标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。