基于自蒸馏预训练和元学习微调的远场说话人确认方法技术

技术编号：39056185 阅读：22 留言：0更新日期：2023-10-12 19:49

本发明专利技术公开了一种基于自蒸馏预训练和元学习微调的远场说话人确认方法，过程如下：从近场训练语音提取对数梅尔谱特征作为网络的输入，采用自蒸馏学习方法预训练深度神经网络；接着，将远场训练语音的对数梅尔谱特征作为网络的输入，采用元学习方法微调经过预训练的网络；然后，将注册语音的对数梅尔谱特征输入经过预训练和微调的网络得到变换特征矢量，将测试语音的对数梅尔谱特征输入经过微调和预训练的网络得到变换特征矢量；最后，计算测试语音变换特征矢量与注册语音变换特征矢量之间的距离，判断二者是否来自同一个说话人。本发明专利技术方法既提高了网络训练效率，又提升了网络在注册语音与测试语音的录制环境不一致时的说话人确认准确率。的说话人确认准确率。的说话人确认准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于自蒸馏预训练和元学习微调的远场说话人确认方法

[0001]本专利技术涉及语音信号处理
，具体涉及一种基于自蒸馏预训练和元学习微调的远场说话人确认方法。

技术介绍

[0002]说话人确认的任务是判断一段测试语音是否与注册语音来自同一个说话人。近年来，基于深度神经网络的说话人确认方法取得了突破性进展，在受控条件下(例如近距离谈话场景、干扰较少)取得了令人满意的效果。然而在远场发音的条件下，语音信号强度衰减、空间混响和环境噪声干扰使得已有说话人确认方法的性能显著下降。为了缓解远场发音对说话人确认方法性能的影响，现有技术手段主要包括：前端语音信号增强和模型域自适应。
[0003]前端语音信号增强通过引入额外的前端处理模块，对输入语音进行放大、降噪和去混响等处理。典型的方法包括维纳滤波、卡尔曼滤波、加权预测误差等基于传统数字信号处理的算法和基于深度神经网络的算法。此类技术的优点是可以直接使用现有的说话人确认模型，无须对已有模型做任何修改；缺点是会增加整个方法的参数量和计算量。此外，有可能在滤除噪声的同时损坏语音样本中的说话人信息。
[0004]模型的域适应技术将远场说话人确认看作一个域适应问题，通过域对抗训练、最大均值差异等方法将在近场数据集上训练的模型迁移到目标域的远场数据集上。此类技术虽然能够取得一定的性能提升，但存在训练时难以收敛等问题。同时，为了实现域适应，需要预先收集一定数量的目标域远场语音样本，具有一定的局限性。此类方法主要聚焦于训练集和测试集之间的域不一致，而没有关注说话人确认中注册语音...

【技术保护点】

【技术特征摘要】
1.一种基于自蒸馏预训练和元学习微调的远场说话人确认方法，其特征在于，所述远场说话人确认方法包括以下步骤：S1、建立语音数据集：将语音数据集划分为预训练数据集的近场训练语音、微调数据集远场训练语音、评估数据集的近场注册语音和评估数据集的远场测试语音；S2、提取对数梅尔谱特征：从预训练数据集的近场训练语音、微调数据集的远场训练语音、评估数据集的近场注册语音和远场测试语音分别提取对数梅尔谱特征，提取过程包括预加重、分帧、加窗、傅里叶变换、梅尔滤波、对数运算和归一化；S3、构建并初始化自蒸馏学习框架：所述自蒸馏学习框架包括主干神经网络、以及仅用于自蒸馏预训练阶段的分支神经网络；S4、自蒸馏预训练主干神经网络：将近场训练语音的对数梅尔谱特征输入自蒸馏学习框架中的主干神经网络，利用分支神经网络，通过优化分类损失函数和自蒸馏损失函数，将主干神经网络最后一层的输出作为额外监督信息，指导主干神经网络中间层的训练，迭代更新得到经过预训练的主干神经网络；S5、元学习微调主干神经网络：将远场训练语音的对数梅尔谱特征输入经过预训练的主干神经网络，通过元学习方法对经过预训练的主干神经网络的网络参数进行微调，迭代更新主干神经网络直至收敛；S6、说话人确认：将评估数据集的近场注册语音和远场测试语音组成测试样本对，包括正样本对和负样本对，其中，正样本对的两个语音属于相同说话人，负样本对的两个语音样本属于不同说话人；将测试样本对的对数梅尔谱特征输入经过预训练和微调的主干神经网络，得到测试样本对的深度特征，计算测试样本对的深度特征之间的相似度，若两者之间的相似度大于预先设定的阈值，则认为上述两段语音来自同一个说话人，反之则不是。2.根据权利要求1所述的基于自蒸馏预训练和元学习微调的远场说话人确认方法，其特征在于，所述步骤S2的过程如下：S2.1预加重：采用一阶高通滤波器对输入的预训练数据集的近场训练语音、微调数据集的远场训练语音、评估数据集的近场注册语音和远场测试语音进行预加重处理，滤波器的传递函数为H(z)＝1
‑
αz
‑1，其中0.9≤α≤1；S2.2、分帧：对预加重后的近场训练语音、远场训练语音、近场注册语音和远场测试语音进行分帧处理，得到短时语音帧；S2.3、加窗：对短时语音帧进行加窗处理：选择汉明窗作为窗函数，将其与每帧语音相乘得到加窗后的短时语音帧；S2.4、提取对数梅尔谱：对加窗的短时语音帧进行离散傅里叶变换，得到对应的线性谱，再采用梅尔滤波器将线性频谱转化为梅尔谱，最后对梅尔谱取对数得到对数梅尔谱；S2.5，归一化：采用局部倒谱均值归一化方法对所述对数梅尔谱特征进行处理，得到归一化特征。3.根据权利要求1所述的基于自蒸馏预训练和元学习微调的远场说话人确认方法，其特征在于，所述步骤S3的过程如下S3.1、构建主干神经网络：所述主干神经网络包括顺序连接的卷积输入层、第一卷积模块、第二卷积模块、...、第N卷积模块、卷积降维层、注意力统计池化层和全连接层，其中，全连接层的输出为最终的说话人深度特征，卷积模块数N和卷积模块的具体结构根据选择的
主干神经网络确定；S3.2、构建分支神经网络：所述分支神经网络包括顺序连接的瓶颈模块、统计池化层和全连接层；分支神经网络仅在自蒸馏预训练阶段使用，用于计算自蒸馏损失，分支神经网络的输入为主干神经网络中第一至第N
‑
1卷积模块的输出，将以第一卷积模块的输出作为输入的分支神经网络称为第一分支神经网络、将以第二卷积模块的输出作为输入的分支神经网络称为第二分支神经网络、......、将以第N
‑
1卷积模块的输出作为输出的分支神经网络称为第N
‑
1分支神经网络。4.根据权利要求1所述的基于自蒸馏预训练和元学习微调的远场说话人确认方法，其特征在于，所述步骤S4的过程如下：S4.1、提取主干深度特征：将步骤S1中提取的近场训练语音对数梅尔谱特征输入主干神经网络，得到主干神经网络的全连接层输出作为主干深度特征；S4.2、提取分支深度特征：对同一输入，将主干时延神经网络中的第一到第N
‑
1卷积模块的输出分别输入到第一到第N
‑
1分支神经网络，得到第一分支深度特征到第N
‑
1分支深度特征；S4.3、更新主干神经网路和分支神经网络参数：基于主干神经网络输出的主干深度特征、第一到第N
‑
1分支神经网络输出的第一到第N
‑
1分支深度特征计算分类损失函数和蒸馏损失函数，通过反向传播算法同时更新主干神经网络、第一到第N
‑
1分支神经网络的参数，其中分类损失和蒸馏损失函数定义如下：分类损失函数：在第一到第N
‑
1分支神经网络和主干神经网络的全连接层后连接结构相同的线性分类器，分别对应第一到第N
‑
1线性分类器和第N线性分类器，对于其中一个线性分类器c，设其输入为维度...

【专利技术属性】
技术研发人员：李艳雄，黄启晟，曹文昌，李佳龙，谭嘉昕，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人