一种声纹识别方法、系统以及电子设备技术方案

技术编号：40704266 阅读：6 留言：0更新日期：2024-03-22 11:03

本申请实施例提供了一种声纹识别方法、系统以及电子设备，涉及声纹识别技术领域。本申请通过增量数据训练原始声纹模型得到增量模型，通过目标匹配数据训练声纹模型得到全量模型，并将增量模型的神经网络层和全量模型的嵌入层进行合并得到组合模型，通过目标匹配数据对组合模型进行训练得到优化后的目标声纹模型，通过目标声纹模型来识别获取的待识别的目标声纹数据，使得模型对声纹的识别的准确度大大提高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及声纹识别，特别是一种声纹识别方法、系统以及电子设备。

技术介绍

1、声纹识别，也叫说话人识别。说话人识别指通过语音来确认说话人的身份，是和语音识别处理技术类似的一种识别技术。

2、声纹识别技术在语音识别当中是非常重要的一环，在任何领域，如机器唤醒、声音认领、声纹比对等，都有着相当重要的作用。

3、声纹识别采用的技术一般基于的是利用高阶特征向量进行分类的思想。在训练模型时，将声音的低阶特征，经过神经网络映射到高阶特征，然后经过嵌入层映射到一维矩阵作为目标用来计算损失函数值。模型使用时需要去掉嵌入层，将提取到的高阶特征作为一个人的声纹特征。

4、但是，在训练数据量庞大时，这种高阶特征间的关系是具有普遍性的，但为了一般声音的准确度还是会存在一些轻微的过拟合。在这种情况下，如果目标声音(实际使用时用到的声音)和训练数据相距甚远，比如训练数据低噪而目标数据背景噪音特别大、或者训练数据的格式和目标数据不匹配时，高阶特征的提取会产生波动，导致同一个人的相似度降低，不同人之间的相似度增加，从而造成声纹识别的准确度受到影响。

5、因此，亟需一种新的声纹识别方法。

技术实现思路

1、鉴于上述问题，本申请实施例提供了一种声纹识别方法、系统以及电子设备，以便克服上述问题或者至少部分地解决上述问题。

2、本申请实施例第一方面，提供了一种声纹识别方法，所述方法包括：

3、获取待识别的目标声纹数据；

4、将所述待识别的

5、获取第一预设数量的增量数据，所述增量数据包括第一原始训练数据以及目标匹配数据，所述目标匹配数据与所述待识别的目标声纹数据在多个维度相匹配，所述多个维度包括背景噪音维度和数据格式维度；

6、通过所述增量数据训练第一原始声纹模型得到增量模型；

7、通过所述目标匹配数据训练第二声纹模型，得到全量模型；

8、选取所述增量模型的神经网络层和所述全量模型的嵌入层，并将所选取的神经网络层和所选取的嵌入层进行合并，得到组合模型；

9、通过所述目标匹配数据训练所述组合模型，得到目标声纹模型。

10、可选地，所述通过所述目标匹配数据训练所述组合模型，得到目标声纹模型，包括：

11、通过所述目标匹配数据单独训练所述组合模型的神经网络层；

12、在所述组合模型的神经网络层的损失函数值下降到与所述组合模型的嵌入层的损失函数值之间的差值小于第一预设差值的情况下，通过所述目标匹配数据同时训练所述组合模型的神经网络层和嵌入层，得到所述目标声纹模型。

13、可选地，所述通过所述目标匹配数据单独训练所述组合模型的神经网络层，包括：

14、将所述目标匹配数据输入所述组合模型的神经网络层，以计算所述组合模型的神经网络层的第一损失函数值；

15、通过所述第一损失函数值，更新所述组合模型的神经网络层的模型参数，并保持所述组合模型的嵌入层的模型参数不变。

16、可选地，所述在所述组合模型的神经网络层的损失函数值下降到与所述组合模型的嵌入层的损失函数值之间的差值小于第一预设差值的情况下，通过所述目标匹配数据同时训练所述组合模型的神经网络层和嵌入层，得到所述目标声纹模型，包括：

17、在单独训练所述组合模型的神经网络层的次数达到第一预设次数的情况下，分别计算所述组合模型的神经网络层的第一损失函数值和所述组合模型的嵌入层的第二损失函数值；

18、判断所述组合模型的神经网络层的第一损失函数值和所述组合模型的嵌入层的第二损失函数值之间的差值是否小于所述第一预设差值；

19、若是，则通过所述目标匹配数据同时训练所述组合模型的神经网络层和所述组合模型的嵌入层，得到所述目标声纹模型；

20、若否，则继续单独训练所述组合模型的神经网络层。

21、可选地，所述通过所述目标匹配数据训练所述第二声纹模型，得到全量模型，包括：

22、将所述目标匹配数据输入所述第二声纹模型，以对所述第二声纹模型进行全量训练；

23、每进行一次全量训练，则计算一次所述第二声纹模型的神经网络层的第三损失函数值和所述第二声纹模型的嵌入层的第四损失函数值，所述第三损失函数值用于更新所述第二声纹模型的神经网络层的模型参数，所述第四损失函数值用于更新所述第二声纹模型的嵌入层的模型参数；

24、在所述全量训练的训练次数达到第二预设次数，和/或所述第二声纹模型的神经网络层的损失函数值以及所述第二声纹模型的嵌入层的损失函数值均降低到第一预设损失函数值的情况下，得到所述全量模型。

25、可选地，所述通过所述增量数据训练第一原始声纹模型得到增量模型，包括：

26、从原始训练数据库中选取所述第一原始训练数据，并从预设数据库中选取所述目标匹配数据，所述目标匹配数据包括目标数据以及与所述目标数据在所述多个维度相匹配的匹配数据，所述原始训练数据库为训练得到所述第一原始声纹模型所使用的训练数据库，所述预设数据库内存储有预先录制好的具有所述多个维度的训练数据；

27、将所述第一原始训练数据和所述目标匹配数据作为增量数据输入所述第一原始声纹模型，以对所述第一原始声纹模型进行增量训练；

28、每进行一次增量训练，则计算一次所述第一原始声纹模型的神经网络层的第五损失函数值和所述第一原始声纹模型的嵌入层的第六损失函数值，所述第五损失函数值用于更新所述第一原始声纹模型的神经网络层的模型参数，所述第六损失函数值用于更新所述第一原始声纹模型的嵌入层的模型参数；

29、在所述增量训练的训练次数达到第三预设次数，和/或所述第一原始声纹模型的神经网络层的第五损失函数值以及所述第一原始声纹模型的嵌入层的第六损失函数值均降低到第二预设损失函数值的情况下，得到所述增量模型。

30、可选地，所述选取所述增量模型的神经网络层和所述全量模型的嵌入层，并将所选取的神经网络层和所选取的嵌入层进行合并，得到组合模型，包括：

31、根据所述增量模型的模型结构，获取所述增量模型的神经网络层的位置；

32、基于所述增量模型中所述神经网络层的位置，对所述增量模型的神经网络层进行提取；

33、根据所述全量模型的模型结构，获取所述全量模型的嵌入层的位置；

34、基于所述全量模型嵌入层的位置，对所述全量模型的嵌入层进行提取；

35、将所述全量模型的嵌入层的输出作为所述增量模型的神经网络层的输入，以使所述全量模型的嵌入层和所述增量模型的神经网络层进行组合，得到所述组合模型。

36、可选地，在训练所述增量模型之前，所述方法还包括：

37、获取在训练所述第一原始声纹模型时所使用的第二原始训练数据中的说话人数量；<本文档来自技高网...

【技术保护点】

1.一种声纹识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的声纹识别方法，其特征在于，所述通过所述目标匹配数据训练所述组合模型，得到目标声纹模型，包括：

3.根据权利要求2所述的声纹识别方法，其特征在于，所述通过所述目标匹配数据单独训练所述组合模型的神经网络层，包括：

4.根据权利要求2所述的声纹识别方法，其特征在于，所述在所述组合模型的神经网络层的损失函数值下降到与所述组合模型的嵌入层的损失函数值之间的差值小于第一预设差值的情况下，通过所述目标匹配数据同时训练所述组合模型的神经网络层和嵌入层，得到所述目标声纹模型，包括：

5.根据权利要求1所述的声纹识别方法，其特征在于，所述通过所述目标匹配数据训练所述第二声纹模型，得到全量模型，包括：

6.根据权利要求1所述的声纹识别方法，其特征在于，所述通过所述增量数据训练第一原始声纹模型得到增量模型，包括：

7.根据权利要求1所述的声纹识别方法，其特征在于，所述选取所述增量模型的神经网络层和所述全量模型的嵌入层，并将所选取的神经网络层和所选取的嵌入层进行合并，得到组合模型，包括：

8.根据权利要求6所述的声纹识别方法，其特征在于，在训练所述增量模型之前，所述方法还包括：

9.一种声纹识别系统，其特征在于，所述系统包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至8中任一项所述的声纹识别方法。

...

【技术特征摘要】

1.一种声纹识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的声纹识别方法，其特征在于，所述通过所述目标匹配数据训练所述组合模型，得到目标声纹模型，包括：

3.根据权利要求2所述的声纹识别方法，其特征在于，所述通过所述目标匹配数据单独训练所述组合模型的神经网络层，包括：

5.根据权利要求1所述的声纹识别方法，其特征在于，所述通过所述目标匹配数据训练所述第二声纹...

【专利技术属性】
技术研发人员：刘羽辰，陈明，李健，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人