基于自蒸馏预训练和元学习微调的远场说话人确认方法技术

技术编号:39056185 阅读:22 留言:0更新日期:2023-10-12 19:49
本发明专利技术公开了一种基于自蒸馏预训练和元学习微调的远场说话人确认方法,过程如下:从近场训练语音提取对数梅尔谱特征作为网络的输入,采用自蒸馏学习方法预训练深度神经网络;接着,将远场训练语音的对数梅尔谱特征作为网络的输入,采用元学习方法微调经过预训练的网络;然后,将注册语音的对数梅尔谱特征输入经过预训练和微调的网络得到变换特征矢量,将测试语音的对数梅尔谱特征输入经过微调和预训练的网络得到变换特征矢量;最后,计算测试语音变换特征矢量与注册语音变换特征矢量之间的距离,判断二者是否来自同一个说话人。本发明专利技术方法既提高了网络训练效率,又提升了网络在注册语音与测试语音的录制环境不一致时的说话人确认准确率。的说话人确认准确率。的说话人确认准确率。

【技术实现步骤摘要】
基于自蒸馏预训练和元学习微调的远场说话人确认方法


[0001]本专利技术涉及语音信号处理
,具体涉及一种基于自蒸馏预训练和元学习微调的远场说话人确认方法。

技术介绍

[0002]说话人确认的任务是判断一段测试语音是否与注册语音来自同一个说话人。近年来,基于深度神经网络的说话人确认方法取得了突破性进展,在受控条件下(例如近距离谈话场景、干扰较少)取得了令人满意的效果。然而在远场发音的条件下,语音信号强度衰减、空间混响和环境噪声干扰使得已有说话人确认方法的性能显著下降。为了缓解远场发音对说话人确认方法性能的影响,现有技术手段主要包括:前端语音信号增强和模型域自适应。
[0003]前端语音信号增强通过引入额外的前端处理模块,对输入语音进行放大、降噪和去混响等处理。典型的方法包括维纳滤波、卡尔曼滤波、加权预测误差等基于传统数字信号处理的算法和基于深度神经网络的算法。此类技术的优点是可以直接使用现有的说话人确认模型,无须对已有模型做任何修改;缺点是会增加整个方法的参数量和计算量。此外,有可能在滤除噪声的同时损坏语音样本中的说话人信息。
[0004]模型的域适应技术将远场说话人确认看作一个域适应问题,通过域对抗训练、最大均值差异等方法将在近场数据集上训练的模型迁移到目标域的远场数据集上。此类技术虽然能够取得一定的性能提升,但存在训练时难以收敛等问题。同时,为了实现域适应,需要预先收集一定数量的目标域远场语音样本,具有一定的局限性。此类方法主要聚焦于训练集和测试集之间的域不一致,而没有关注说话人确认中注册语音和测试语音的域不一致问题。

技术实现思路

[0005]本专利技术的目的是为了解决注册语音与测试语音录制场景不一致引起的说话人识别方法性能下降问题,提供一种基于自蒸馏预训练和元学习微调的远场说话人确认方法,将自蒸馏学习、元学习与现有用于说话人识别深度神经网络进行结合,实现一种近场注册远场测试的说话人确认方法。自蒸馏学习是一种能够有效提升深度神经网络性能的训练方法,利用深度神经网络网络最后一层的输出作为额外的监督信息指导网络中间层的训练,使深度神经网络生成更加鲁棒的深度特征。元学习是一种能够提升深度神经网络泛化性的训练策略,通过在支持集和查询集中分别模拟不同的噪声环境,使在不同噪声环境中录制的相同说话人的语音样本经过网络变换得到的深度特征在特征空间中尽可能接近,而不同说话人语音样本的深度特征尽可能远离,使深度神经网络具备生成域不变特征的能力。
[0006]本专利技术的目的可以通过采取如下技术方案达到:
[0007]一种基于自蒸馏预训练和元学习微调的远场说话人确认方法,所述远场说话人确认方法包括以下步骤:
[0008]S1、建立语音数据集:将语音数据集划分为预训练数据集的近场训练语音、微调数
据集远场训练语音、评估数据集的近场注册语音和评估数据集的远场测试语音;
[0009]S2、提取对数梅尔谱特征:从预训练数据集的近场训练语音、微调数据集的远场训练语音、评估数据集的近场注册语音和远场测试语音分别提取对数梅尔谱特征,提取过程包括预加重、分帧、加窗、傅里叶变换、梅尔滤波、对数运算和归一化;
[0010]S3、构建并初始化自蒸馏学习框架:所述自蒸馏学习框架包括主干神经网络、以及仅用于自蒸馏预训练阶段的分支神经网络;
[0011]S4、自蒸馏预训练主干神经网络:将近场训练语音的对数梅尔谱特征输入自蒸馏学习框架中的主干神经网络,利用分支神经网络,通过优化分类损失函数和自蒸馏损失函数,将主干神经网络最后一层的输出作为额外监督信息,指导主干神经网络中间层的训练,迭代更新得到经过预训练的主干神经网络;
[0012]S5、元学习微调主干神经网络:将远场训练语音的对数梅尔谱特征输入经过预训练的主干神经网络,通过元学习方法对经过预训练的主干神经网络的网络参数进行微调,迭代更新主干神经网络直至收敛;
[0013]S6、说话人确认:将评估数据集的近场注册语音和远场测试语音组成测试样本对,包括正样本对和负样本对,其中,正样本对的两个语音属于相同说话人,负样本对的两个语音样本属于不同说话人;将测试样本对的对数梅尔谱特征输入经过预训练和微调的主干神经网络,得到测试样本对的深度特征,计算测试样本对的深度特征之间的相似度,若两者之间的相似度大于预先设定的阈值,则认为上述两段语音来自同一个说话人,反之则不是。
[0014]进一步地,所述步骤S2的过程如下:
[0015]S2.1预加重:利用预加重提高高频分量,即对高频分量进行补偿.采用一阶高通滤波器对输入的预训练数据集的近场训练语音、微调数据集的远场训练语音、评估数据集的近场注册语音和远场测试语音进行预加重处理,滤波器的传递函数为H(z)=1

αz
‑1,其中0.9≤α≤1;
[0016]S2.2、分帧:对预加重后的近场训练语音、远场训练语音、近场注册语音和远场测试语音进行分帧处理,得到短时语音帧;其原因是因为信号中的频率会随时间变化,为了避免信号的频率轮廓随着时间的推移而丢失,需要对信号进行分帧处理,认为每一帧之内的信号是短时不变的;
[0017]S2.3、加窗:利用加窗使帧两端平滑地衰减,降低后续傅里叶变换旁瓣的强度,从而得到更高质量的频谱;对短时语音帧进行加窗处理,选择汉明窗作为窗函数,将其与每帧语音相乘得到加窗后的短时语音帧;
[0018]S2.4、提取对数梅尔谱:对加窗的短时语音帧进行离散傅里叶变换,得到对应的线性谱,再采用梅尔滤波器将线性频谱转化为梅尔谱,最后对梅尔谱取对数得到对数梅尔谱;
[0019]S2.5,归一化:采用局部倒谱均值归一化方法对所述对数梅尔谱特征进行处理,得到归一化特征。通过对声学特征向量进行均值归一化,能够将各个频带的能量都缩放到相同的级别,从而使得不同说话人的声音特征在频域上更加一致,具有可比性,能够更好地对不同说话人进行分类和识别。
[0020]进一步地,所述步骤S3的过程如下
[0021]S3.1、构建主干神经网络:所述主干神经网络包括顺序连接的卷积输入层、第一卷积模块、第二卷积模块、...、第N卷积模块、卷积降维层、注意力统计池化层和全连接层,其
中,全连接层的输出为最终的说话人深度特征,卷积模块数N和卷积模块的具体结构根据选择的主干神经网络确定;卷积输入层的作用是将低维的输入声学特征映射到语义信息丰富的高维特征图,第一至第N卷积模块的作用是学习并从高维特征图提取与区分不同说话人的关键特征,卷积降维层、注意力统计池化层和全连接层的作用是去除高维特征图中的冗余信息,并将其映射到低维的特征空间,便于识别和分类;
[0022]S3.2、构建分支神经网络:所述分支神经网络包括顺序连接的瓶颈模块、统计池化层和全连接层;分支神经网络仅在自蒸馏预训练阶段使用,用于计算自蒸馏损失,分支神经网络的输入为主干神经网络中第一至第N

1卷积模块的输出,将以第一卷积模块的输出作为输入的分支神经网络称为第一分支神经本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自蒸馏预训练和元学习微调的远场说话人确认方法,其特征在于,所述远场说话人确认方法包括以下步骤:S1、建立语音数据集:将语音数据集划分为预训练数据集的近场训练语音、微调数据集远场训练语音、评估数据集的近场注册语音和评估数据集的远场测试语音;S2、提取对数梅尔谱特征:从预训练数据集的近场训练语音、微调数据集的远场训练语音、评估数据集的近场注册语音和远场测试语音分别提取对数梅尔谱特征,提取过程包括预加重、分帧、加窗、傅里叶变换、梅尔滤波、对数运算和归一化;S3、构建并初始化自蒸馏学习框架:所述自蒸馏学习框架包括主干神经网络、以及仅用于自蒸馏预训练阶段的分支神经网络;S4、自蒸馏预训练主干神经网络:将近场训练语音的对数梅尔谱特征输入自蒸馏学习框架中的主干神经网络,利用分支神经网络,通过优化分类损失函数和自蒸馏损失函数,将主干神经网络最后一层的输出作为额外监督信息,指导主干神经网络中间层的训练,迭代更新得到经过预训练的主干神经网络;S5、元学习微调主干神经网络:将远场训练语音的对数梅尔谱特征输入经过预训练的主干神经网络,通过元学习方法对经过预训练的主干神经网络的网络参数进行微调,迭代更新主干神经网络直至收敛;S6、说话人确认:将评估数据集的近场注册语音和远场测试语音组成测试样本对,包括正样本对和负样本对,其中,正样本对的两个语音属于相同说话人,负样本对的两个语音样本属于不同说话人;将测试样本对的对数梅尔谱特征输入经过预训练和微调的主干神经网络,得到测试样本对的深度特征,计算测试样本对的深度特征之间的相似度,若两者之间的相似度大于预先设定的阈值,则认为上述两段语音来自同一个说话人,反之则不是。2.根据权利要求1所述的基于自蒸馏预训练和元学习微调的远场说话人确认方法,其特征在于,所述步骤S2的过程如下:S2.1预加重:采用一阶高通滤波器对输入的预训练数据集的近场训练语音、微调数据集的远场训练语音、评估数据集的近场注册语音和远场测试语音进行预加重处理,滤波器的传递函数为H(z)=1

αz
‑1,其中0.9≤α≤1;S2.2、分帧:对预加重后的近场训练语音、远场训练语音、近场注册语音和远场测试语音进行分帧处理,得到短时语音帧;S2.3、加窗:对短时语音帧进行加窗处理:选择汉明窗作为窗函数,将其与每帧语音相乘得到加窗后的短时语音帧;S2.4、提取对数梅尔谱:对加窗的短时语音帧进行离散傅里叶变换,得到对应的线性谱,再采用梅尔滤波器将线性频谱转化为梅尔谱,最后对梅尔谱取对数得到对数梅尔谱;S2.5,归一化:采用局部倒谱均值归一化方法对所述对数梅尔谱特征进行处理,得到归一化特征。3.根据权利要求1所述的基于自蒸馏预训练和元学习微调的远场说话人确认方法,其特征在于,所述步骤S3的过程如下S3.1、构建主干神经网络:所述主干神经网络包括顺序连接的卷积输入层、第一卷积模块、第二卷积模块、...、第N卷积模块、卷积降维层、注意力统计池化层和全连接层,其中,全连接层的输出为最终的说话人深度特征,卷积模块数N和卷积模块的具体结构根据选择的
主干神经网络确定;S3.2、构建分支神经网络:所述分支神经网络包括顺序连接的瓶颈模块、统计池化层和全连接层;分支神经网络仅在自蒸馏预训练阶段使用,用于计算自蒸馏损失,分支神经网络的输入为主干神经网络中第一至第N

1卷积模块的输出,将以第一卷积模块的输出作为输入的分支神经网络称为第一分支神经网络、将以第二卷积模块的输出作为输入的分支神经网络称为第二分支神经网络、......、将以第N

1卷积模块的输出作为输出的分支神经网络称为第N

1分支神经网络。4.根据权利要求1所述的基于自蒸馏预训练和元学习微调的远场说话人确认方法,其特征在于,所述步骤S4的过程如下:S4.1、提取主干深度特征:将步骤S1中提取的近场训练语音对数梅尔谱特征输入主干神经网络,得到主干神经网络的全连接层输出作为主干深度特征;S4.2、提取分支深度特征:对同一输入,将主干时延神经网络中的第一到第N

1卷积模块的输出分别输入到第一到第N

1分支神经网络,得到第一分支深度特征到第N

1分支深度特征;S4.3、更新主干神经网路和分支神经网络参数:基于主干神经网络输出的主干深度特征、第一到第N

1分支神经网络输出的第一到第N

1分支深度特征计算分类损失函数和蒸馏损失函数,通过反向传播算法同时更新主干神经网络、第一到第N

1分支神经网络的参数,其中分类损失和蒸馏损失函数定义如下:分类损失函数:在第一到第N

1分支神经网络和主干神经网络的全连接层后连接结构相同的线性分类器,分别对应第一到第N

1线性分类器和第N线性分类器,对于其中一个线性分类器c,设其输入为维度...

【专利技术属性】
技术研发人员:李艳雄黄启晟曹文昌李佳龙谭嘉昕
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1