System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语音质量自适应和类三元组思想的说话人确认方法及设备技术_技高网
当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于语音质量自适应和类三元组思想的说话人确认方法及设备技术

技术编号:41336177 阅读:5 留言:0更新日期:2024-05-20 09:55
本发明专利技术涉及一种基于语音质量自适应和类三元组思想的说话人确认方法,包括以下步骤:提取若干语音数据的语音特征;将若干语音特征输入说话人确认网络模型中,得到若干声纹特征;构建AAM‑Softmax的边界函数和AM‑Softmax的边界函数;构建第一损失函数和第二损失函数;将声纹特征的L2范数归一化,得到语音质量指标;构建总损失函数;采用总损失函数对说话人确认网络模型进行训练;采用训练好的说话人确认网络模型进行说话人确认。本发明专利技术的总损失函数具有两个特点:1)如果语音质量较高,训练过程强调难样本,2)如果语音质量较低,训练过程不强调难样本。本发明专利技术得到了精确并且鲁棒的声纹特征,并解决了现实场景下说话人确认语音样本质量差严重影响模型性能的问题。

【技术实现步骤摘要】

本专利技术属于声纹识别,特别涉及一种基于语音质量自适应和类三元组思想的说话人确认方法及设备


技术介绍

1、说话人确认是一种可以确定注册话语和测试话语是否属于同一说话人的生物特征识别技术,已经被广泛应用于电信反欺诈、刑事侦查和移动支付等任务。随着深度学习的兴起,近年来研究者们的关注重点已从传统的说话人确认转向了基于深度学习的说话人确认,并且在精度等性能上已经得到了很大的提升。

2、但是,目前基于深度学习的说话人确认方法仍面临许多现实问题。用于训练的语音数据集在收集过程中难免会受到各种噪声或信号干扰的影响,这可能会导致训练集的语音样本质量不一致,这类样本在训练过程中会对模型造成一定程度的干扰,降低模型的鲁棒性。因此,如何有效的识别语音的质量,并消除语音质量差的语音样本在训练过程中可能会对模型产生的消极影响,是说话人确认任务面临的一个关键问题。目前大多数的研究都不考虑数据集中语音质量不一致的问题,而当数据集中有语音质量差的样本时,会严重影响说话人的性能,使模型的训练和测试都无法达到理想的结果。当语音质量比较差时,模型会试图利用语音的其他特征以降低损失,这对模型的训练过程是有害的;当语音质量退化严重时,相关的身份信息甚至会从语音中消失,那么模型会学到完全和身份无关的其他信息,导致说话人识别失效。


技术实现思路

1、本专利技术的目的在于提供一种基于语音质量自适应和类三元组思想的说话人确认方法及设备,能够解决当前语音质量差的难样本严重影响说话人识别性能的问题;

2、为达到上述目的,本专利技术采用的技术方案是:

3、一种基于语音质量自适应和类三元组思想的说话人确认方法,包括以下步骤:

4、提取若干语音数据的语音特征;

5、将若干语音特征输入说话人确认网络模型中,得到若干声纹特征;

6、构建aam-softmax的边界函数和am-softmax的边界函数;

7、构建第一损失函数和第二损失函数;

8、所述第一损失函数表示为:

9、

10、所述第二损失函数表示为:

11、

12、其中,f(θj,m)aam-softmax为aam-softmax的边界函数,f(θj,m)am-softmax为am-softmax的边界函数;

13、将声纹特征的l2范数归一化,得到该声纹特征对应语音数据的语音质量指标,可以表示为:

14、

15、其中,ei表示第i个人的声纹特征,μe和σe分别为一批次内所有特征向量||ei||的均值和标准差,指的是在-1和1之间进行限制;

16、根据语音质量指标、第一损失函数和第二损失函数,构建总损失函数;

17、所述总损失函数表示为:

18、

19、采用总损失函数对说话人确认网络模型进行训练;

20、采用训练好的说话人确认网络模型进行说话人确认。

21、优选的,所述aam-softmax的边界函数表示为:

22、

23、所述am-softmax的边界函数表示为:

24、

25、其中,m为边界值,s是尺度因子。

26、优选的,m为0.1~0.4。

27、优选的,还包括以下步骤:计算第i个样本在第j个类别上的评定,即计算声纹特征ei与第j个类别相对应的权重wj的余弦距离为:

28、

29、其中,wj是第j个类别输出单元相连的权值,||·||是指l2范数。

30、优选的,所述采用训练好的说话人确认网络模型进行说话人确认,包括以下步骤:

31、提取两条待比较说话人语音的语音特征,

32、将两条待比较说话人语音的语音特征输入训练好的说话人确认网络模型,得到两条待比较说话人语音的声纹特征;

33、根据两条待比较说话人语音的声纹特征,得到两条待比较说话人语音是否为同一个人的判别结果。

34、优选的,所述根据两条待比较说话人语音的声纹特征,得到两条待比较说话人语音是否为同一个人的判别结果,包括以下步骤:

35、利用如下公式对两条待比较说话人语音的声纹特征,进行相似度打分,

36、

37、其中,e1和e2为两条待比较说话人语音的声纹特征。

38、优选的,所述说话人确认网络模型为ecapa-tdnn、resnet、thin-resnet、half-resnet34、vgg网络模型中的任意一种。

39、根据本专利技术的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时执行上述所述的基于语音质量自适应和类三元组思想的说话人确认方法中的步骤。

40、根据本专利技术的另一方面,还提供一种基于语音质量自适应和类三元组思想的说话人确认设备,其特征在于,包括:

41、存储器,用于存储软件应用程序,

42、处理器,用于执行所述软件应用程序,所述软件应用程序的各程序相对应地执行上述所述的基于语音质量自适应和类三元组思想的说话人确认方法中的步骤。

43、本专利技术以声纹特征的l2范数作为判断语音质量的指标,可以通过这个指标判断出高质量和低质量的说话人语音。而在判断出说话人的语音质量之后,需要选择不同的损失函数去训练该样本。由于不同损失函数的梯度缩放项可以起到控制对样本重要程度的作用。因此,总损失函数具有两个特点:1)如果语音质量较高,训练过程强调难样本,2)如果语音质量较低,训练过程不强调难样本。本专利技术得到了精确并且鲁棒的声纹特征,并解决了现实场景下说话人确认语音样本质量差严重影响模型性能的问题。

本文档来自技高网...

【技术保护点】

1.一种基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述AAM-Softmax的边界函数表示为:

3.根据权利要求2所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述m为0.1~0.4。

4.根据权利要求1所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,还包括以下步骤:计算第i个样本在第j个类别上的评定,即计算声纹特征ei与第j个类别相对应的权重wj的余弦距离为:

5.根据权利要求1所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述采用训练好的说话人确认网络模型进行说话人确认,包括以下步骤:

6.根据权利要求5所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述根据两条待比较说话人语音的声纹特征,得到两条待比较说话人语音是否为同一个人的判别结果,包括以下步骤:

7.根据权利要求1所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述说话人确认网络模型为ECAPA-TDNN、ResNet、Thin-ResNet、Half-ResNet34、VGG网络模型中的任意一种。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时执行权利要求1至7中任一所述的基于语音质量自适应和类三元组思想的说话人确认方法中的步骤。

9.一种基于语音质量自适应和类三元组思想的说话人确认设备,其特征在于,包括:

...

【技术特征摘要】

1.一种基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述aam-softmax的边界函数表示为:

3.根据权利要求2所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述m为0.1~0.4。

4.根据权利要求1所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,还包括以下步骤:计算第i个样本在第j个类别上的评定,即计算声纹特征ei与第j个类别相对应的权重wj的余弦距离为:

5.根据权利要求1所述的基于语音质量自适应和类三元组思想的说话人确认方法,其特征在于,所述采用训练好的说话人确认网络模型进行说话人确认,包括以下步骤...

【专利技术属性】
技术研发人员:姚姗姗王超
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1