声纹识别模型的训练方法、声纹识别方法、装置及设备制造方法及图纸

技术编号：35839836 阅读：24 留言：0更新日期：2022-12-03 14:11

本发明专利技术实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备，涉及语音识别领域，通过迭代执行对所述当前语音数据子集中的语音数据进行预处理，获得语音片段；确定第一对比正对和对比负对；将每个语音片段输入到上一迭代获得的深度残差网络模型中，获得对应的说话人嵌入；针对每个说话人嵌入，从预设说话人嵌入队列中确定对应的最近邻正实例，并确定第二对比正对；根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练，获得当前深度残差网络模型；即本发明专利技术的实施例通过额外引入的说话人嵌入队列，选取最近邻正实例来构成额外的对比正对，使得训练出的声纹识别模型准确性更高。高。高。

全部详细技术资料下载

【技术实现步骤摘要】
声纹识别模型的训练方法、声纹识别方法、装置及设备

[0001]本专利技术涉及语音识别领域，尤其涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备。

技术介绍

[0002]声纹识别是一种将语音输入到声纹识别模型中，模型判断该语音是否为指定说话人的技术，在车载应用、语音唤醒、人机交流和智能家居等场景中有着广泛的应用。
[0003]目前，普遍基于对比学习生成图像表征（ Simple Framework for Contrastive Learning of Visual Representations，简称SimCLR）方法来获得声纹识别模型，该方法是将同一段语音切分成两段互不重叠的子语音，来自同一段语音的子语音被认为是正对，来自不同段语音的子语音被认为是负对，然后利用正对、负对进行模型的训练。
[0004]但是，因为正对语音都是来自同一语音，说话人的语速和情感等必然会比较单一，这极大限制了正对语音的多样性，此外，正对语音的通道信息和语义信息存在相似性，从而会让模型认为只要通道信息和语义信息相似，那么就是同一说话人。也就是说，目前训练出的声纹识别模型准确性有待提高。

技术实现思路

[0005]本专利技术的实施例提供了一种声纹识别模型的训练方法、声纹识别方法、装置及设备，以解决目前训练出的声纹识别模型准确性有待提高的技术问题。
[0006]第一方面，本专利技术的实施例提供了声纹识别模型的训练方法，包括：获取语音数据集，并将所述语音数据集中的语音数据划分为多个语音数据子集；迭代执行...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型的训练方法，其特征在于，包括：获取语音数据集，并将所述语音数据集中的语音数据划分为多个语音数据子集；迭代执行以下步骤，直至满足预设条件，并确定当前深度残差网络模型为训练好的声纹识别模型：从所述多个语音数据子集中确定当前语音数据子集，并对所述当前语音数据子集中的语音数据进行预处理，获得语音片段；确定来自于同一语音数据的语音片段构成第一对比正对，确定来自于不同语音数据的语音片段构成对比负对；将每个语音片段输入到上一迭代获得的深度残差网络模型中，获得对应的说话人嵌入；针对每个说话人嵌入，从预设说话人嵌入队列中确定对应的最近邻正实例，其中，所述预设说话人嵌入队列包括历史说话人嵌入，所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入；确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对；根据所述第一对比正对、第二对比正对和对比负对，对所述上一迭代获得的深度残差网络模型进行训练，获得当前深度残差网络模型。2.根据权利要求1所述的训练方法，其特征在于，所述对所述当前语音数据子集中的语音数据进行预处理，获得语音片段，包括：对所述当前语音数据子集中的每个语音数据进行分割处理，获得分割语音片段；对所述分割语音片段进行数据增强处理，获得所述语音片段。3.根据权利要求2所述的训练方法，其特征在于，所述预设条件是预设损失函数收敛；其中，所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和，所述角质原型损失函数根据第一对比正对之间的距离和对比负对之间的距离确定，所述余弦距离损失函数根据第二对比正对之间的距离确定。4.根据权利要求3所述的训练方法，其特征在于，所述角质原型损失函数L
ap
如下：所述余弦距离损失函数L
cos
如下：其中，N表示当前语音数据子集中的语音数据的数量，z
i,1
表示来自于第i个语音数据的第1个语音片段对应的说话人嵌入，z
i,2
表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入；z
j,2
表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入；τ是温度系数，e
i,1
表示z
i,1
对应的最近邻正实例，e
i,2
表示z
i,2
对应的最近邻正实例。5.根据权利要求1
‑
4任一项所述的训练方法，其特征在于，所述方法还包括：将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾，并从所述预设
说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史...

【专利技术属性】
技术研发人员：刘艳，张传飞，张天昊，魏丽芳，陈松路，殷绪成，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人