说话人验证模型训练方法、电子设备和存储介质技术

技术编号:37548790 阅读:16 留言:0更新日期:2023-05-12 16:26
本发明专利技术公开说话人验证模型训练方法、电子设备和存储介质,其中,方法包括:从训练数据集的每个小批次中抽取N*M的语料数量,其中,N是说话人的数量,M是每个说话人的预料数量,将每个说话人的第M个语料作为查询集,每个说话人的其他语料作为支持集;以及使用N个二分类器,以成对比较的形式训练所述说话人验证模型,从而缓解闭集训练和开集测试的不匹配。本申请实施例的方法,通过使用多个二分类器,以成对比较的形式去训练模型,从而可以缓解闭集训练和开集测试的不匹配。基于二分类器的损失函数,相比于度量学习和多分类的方法,在Voxceleb数据集上达到了最好的效果。据集上达到了最好的效果。据集上达到了最好的效果。

【技术实现步骤摘要】
说话人验证模型训练方法、电子设备和存储介质


[0001]本专利技术属于说话人验证模型训练
,尤其涉及说话人验证模型训练方法、电子设备和存储介质。

技术介绍

[0002]相关技术中,存在基于度量学习和基于多分类的损失函数。其中,基于度量学习就是训练的时候拉近相同说话人的距离,拉远不同说话人的距离。基于多分类就是使用多分类训练让模型具有区分说话人的能力。
[0003]专利技术人在实现本申请的过程中发现,上述方案的性能不是很好。

技术实现思路

[0004]本专利技术实施例提供一种说话人验证模型训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。
[0005]第一方面,本专利技术实施例提供一种说话人验证模型训练方法,包括:从训练数据集的每个小批次中抽取N*M的语料数量,其中,N是说话人的数量,M是每个说话人的预料数量,将每个说话人的第M个语料作为查询集,每个说话人的其他语料作为支持集;以及使用N个二分类器,以成对比较的形式训练所述说话人验证模型,从而缓解闭集训练和开集测试的不匹配。
[0006]第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例说话人验证模型训练方法的步骤。
[0007]第三方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的说话人验证模型训练方法的步骤。
[0008]本申请实施例的方法,通过使用多个二分类器,以成对比较的形式去训练模型,从而可以缓解闭集训练和开集测试的不匹配。基于二分类器的损失函数,相比于度量学习和多分类的方法,在Voxceleb数据集上达到了最好的效果。
附图说明
[0009]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术一实施例提供的一种说话人验证模型训练方法的流程图;
[0011]图2为本专利技术一实施例提供的一具体示例的Voxceleb和VoxSRC不同损失函数的结果比较;
[0012]图3为本专利技术一实施例提供的一具体示例的超参数入、t、s和m的消融研究,结果以EER(%)表示;
[0013]图4为本专利技术一实施例提供的一具体示例在有噪声标签的数据上训练的不同损失函数的EER(%)结果;
[0014]图5是本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0015]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]请参考图1,其示出了本申请的说话人验证模型训练方法一实施例的流程图。
[0017]如图1所示,在步骤101中,从训练数据集的每个小批次中抽取N*M的语料数量,其中,N是说话人的数量,M是每个说话人的预料数量,将每个说话人的第M个语料作为查询集,每个说话人的其他语料作为支持集;
[0018]在步骤102中,使用N个二分类器,以成对比较的形式训练所述说话人验证模型,从而缓解闭集训练和开集测试的不匹配。
[0019]在本申请实施例中,通过使用多个二分类器,以成对比较的形式去训练模型,从而可以缓解闭集训练和开集测试的不匹配。基于二分类器的损失函数,相比于度量学习和多分类的方法,在Voxceleb数据集上达到了最好的效果。
[0020]在一些可选的实施例中,在训练过程中,损失函数使用基于余弦的相似度量函数代替L2距离函数,从而将相似度转化到球面空间,更有利于后端的余弦打分。
[0021]在一些可选的实施例中,在所述损失函数中引入边际惩罚,以增强类内样本的相似性,扩大类间样本的距离。
[0022]在一些可选的实施例中,所述边际惩罚包括角度softmax、加性角度softmax和加性边际softmax。
[0023]需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
[0024]下面对通过描述专利技术人在实现本专利技术的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
[0025]专利技术人发现上述缺陷主要是由以下原因导致的:度量学习过于依赖有效样本对的挖掘,而多分类的损失函数会存在闭集训练和开集测试的不匹配。
[0026]为了解决相关技术中存在的上述缺陷,本领域技术人员通常会使用多分类的方法。
[0027]本申请实施例中,使用多个二分类器,以成对比较的形式去训练模型,从而缓解闭集训练和开集测试的不匹配。在本申请实施例中,假设数据集有K个说话人,那么就使用K个二分类器来进行训练。同时,将相似度转化到球面空间,更有利于后端的余弦打分。此外,还
引入了大间隔,让分类边界更加紧凑。
[0028]本申请实施例中的基于二分类器的损失函数,相比于度量学习和多分类的方法,在Voxceleb数据集上达到了最好的效果。此外,该损失函数对有噪声的数据集也有很强的鲁棒性,在30%的标签被错误打乱的噪声数据集上训练,基于二分类的损失函数表现更好。
[0029]以下通过具体的实验和实验数据验证本申请实施例相对于现有技术具有的有益效果。
[0030]封闭集训练和开放集测试之间的不匹配通常会导致说话人验证任务的性能显著下降。对于现有的损失函数,基于度量学习的方法在很大程度上依赖于搜索有效对,这可能会阻碍进一步的改进。当对没见过的说话人进行评估时,常见的多分类方法通常会出现退化。在这项工作中,我们引入了SphereFace2框架,它使用多个二分类器以成对的方式训练说话人模型,而不是使用多分类。受益于这种学习范式,它可以有效地缓解训练和评估之间的差异。在Voxceleb上进行的实验表明,SphereFace2优于其他现有的损失函数,尤其是在高难度测试集上。最后,SphereFace2还显示了其对类噪声标签的强大鲁棒性,这有可能可以应用于基于伪标签学习的半监督训练场景。
[0031]1.引言
[0032]说话人验证(SV)是确定一对语音片段是否属于同一个说话人的任务。最近,随着深度神经网络(DNN)的蓬勃发展,与传统的基于高斯混合模型(GMM)的i...

【技术保护点】

【技术特征摘要】
1.一种说话人验证模型训练方法,包括:从训练数据集的每个小批次中抽取N*M的语料数量,其中,N是说话人的数量,M是每个说话人的预料数量,将每个说话人的第M个语料作为查询集,每个说话人的其他语料作为支持集;使用N个二分类器,以成对比较的形式训练所述说话人验证模型,从而缓解闭集训练和开集测试的不匹配。2.根据权利要求1所述的方法,其中,在训练过程中,损失函数使用基于余弦的相似度量函数代替L2距离函数,从而将相似度转化到球面空间,更有利于后端的余弦打分。3.根据权利要求2所述的方法,在所述损失函数中引入边际惩罚,以增强类内样本的相似性,扩大类间样本的距离。4.根据权...

【专利技术属性】
技术研发人员:钱彦旻韩冰陈正阳
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1