一种基于自适应扩充策略的三阶段半监督声纹识别方法技术

技术编号:38428497 阅读:6 留言:0更新日期:2023-08-07 11:25
本发明专利技术涉及一种基于自适应扩充策略的三阶段半监督声纹识别方法,包括:(1)提出构建三阶段框架的半监督学习方法;(2)提出基于自适应扩充策略的三阶段半监督声纹识别方法;(3)完成对基于自适应扩充策略的三阶段半监督声纹识别方法的训练和测试。本发明专利技术提出的一种基于自适应扩充策略的三阶段半监督声纹识别方法,能在有标签声纹数据不足时充分利用无标签声纹数据提升声纹识别性能,具有较低的等错误率,表现出一定的有效性。表现出一定的有效性。表现出一定的有效性。

【技术实现步骤摘要】
labeling.Journal of Advances in Neural Information Processing Systems,2021,34:18408

18419.提出课程伪标签的方法,在固定匹配方法的基础上,考虑不同类别的数据学习难度不同的问题,研究不同类别的置信度阈值,实验验证提出的方法进一步提升了模型的性能。6.基于图卷积网络的多说话人会议数据半监督学习方法:2022年Tong F,Zheng S,Zhang M,et al.Graph Convolutional Network Based Semi

Supervised Learning on Multi

Speaker Meeting Data[C]//ICASSP 2022

2022IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2022:6622

6626.提出一种基于图卷积网络的半监督学习方法,在给定一个预先训练的嵌入提取器的基础上,对标记数据训练图卷积网络,并用“伪标记”对未标记数据进行聚类,在此基础上,提出一种自校正训练机制,该机制在伪标签上迭代运行聚类训练校正过程。实验结果表明,该方法有效地利用了未标记数据,提高了说话人识别的准确率。

技术实现思路

[0003]本专利技术的目的是提供一种对无标签数据选取具备高准确率和高利用率两种特性的基于自适应扩充策略的三阶段半监督声纹识别方法。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005](1)提出构建三阶段框架(Three

stage framework,TSF)的半监督学习方法;
[0006](1.1)将对比学习、监督学习以及半监督学习统一在三阶段的半监督学习框架中;
[0007](1.2)利用模型自身的分类能力在第二阶段结束后预测初始置信度阈值,进行第三阶段的半监督学习;
[0008](2)提出基于自适应扩充策略的三阶段(Three

Stage Framework with Adaptive Expansion Strategy,TSF

AES)半监督声纹识别方法;
[0009](2.1)利用未被置信度阈值选取的无标签数据预测底线阈值;
[0010](2.2)在基于所述TSF的半监督学习方法基础上,利用自适应扩充策略(Adaptive Expansion Strategy,AES),根据模型的性能自适应地结合底线阈值调整置信度阈值,以合理扩充无标签数据的选取量,进一步提升模型的声纹识别性能;
[0011](3)完成对所述基于自适应扩充策略的三阶段半监督声纹识别方法的训练和测试;
[0012](3.1)利用所述基于TSF

AES半监督声纹识别方法训练半监督声纹识别模型;
[0013](3.2)完成训练后模型的性能测试。
[0014]所述的步骤(1.1)具体包括:
[0015]对有标签数据和无标签数据进行数据强增强和数据弱增强,其中数据强增强是在原始音频中加入音乐、人声、噪音或混响脉冲响应,并在特征提取后进行时域

频域增强,数据弱增强是只在特征提取后进行时域

频域增强,时域增强表示为其中,X(t)表示时间t下的信号,t1和t2表示数据增强的起止时域,频域增强表示为其中,X(f)表示频段f下的信号,f1和f2表
示数据增强的起止频域。
[0016]所述的步骤(1.1)具体包括:
[0017]利用无标签声纹数据进行第一阶段对比学习,采用强化对抗训练的对比学习方法构建正负样本对,利用对比学习使模型学习到数据间的相似性,对比学习结束后,获取编码器的参数用于第二阶段。
[0018]所述的步骤(1.1)具体包括:
[0019]利用有标签数据在第一阶段对比学习的基础上,进行第二阶段监督学习提升模型的分类能力,当模型的性能趋近稳定时,结束第二阶段监督学习,获取编码器的参数用于第三阶段。
[0020]所述的步骤(1.1)具体包括:
[0021]在第二阶段监督学习的基础上进行第三阶段半监督学习,将弱增强的无标签数据经过编码器获取概率向量分布,将概率最大值大于置信度阈值的样本所预测出的标签作为伪标签,并对强增强数据计算损失其中,表示无标签数据集,x
u
表示无标签数据,f
θ
(
·
)表示编码器,f
θ
(A(x
u
))表示弱增强的无标签数据经过编码器获取的概率向量分布,A
s
(x
u
)表示强增强的无标签数据,τ表示置信度阈值,H(
·
)表示附加角度边界的归一化指数函数(Additive Angular Margin softmax,AAM

softmax)损失,有标签数据与其真实标签计算损失进行监督学习其中,表示有标签数据集,x
l
表示有标签数据,y表示数据的真实标签,利用总损失进行半监督学习。
[0022]所述的步骤(1.2)具体包括:
[0023]在第二阶段监督学习基础上,利用有标签数据,通过模型自身的分类能力预测初始阈值作为第三阶段的置信度阈值,将有标签数据概率向量分布最大值对应的类与真实标签进行比对,将相同数据对应的概率最大值求平均作为第三阶段初始置信度阈值,该置信度阈值可以根据当前模型对数据的分类能力对无标签数据进行置信度筛选。
[0024]所述的步骤(2.1)具体包括:
[0025]根据置信度阈值将无标签数据分为被选择和未被选择,对于未被选择的无标签数据进行数据弱增强,并经过编码器获取概率向量分布,将概率向量分布中的最大值求平均作为底线阈值,其中,κ
i
表示第i个epoch的底线阈值,U表示未被选择的无标签数据量,N表示无标签数据的总量,τ
i
表示第i个epoch的置信度阈值。
[0026]所述的步骤(2.2)具体包括:
[0027]第三阶段利用提出的自适应扩充策略,根据模型的性能自适应地结合底线阈值调整置信度阈值,以增加无标签数据的选取量,当模型的性能趋于稳定时,根据初始阈值、底线阈值、当前的训练轮数和总训练轮数自适应调整置信度阈值,使模型在保证高质量的无
标签数据前提下逐渐增加无标签数据的选取量,进一步提高无标签数据的利用率。
[0028]所述的步骤(3.1)具体包括:
[0029]将所述基于TSF

AES半监督声纹识别方法和声纹识别模型(Emphasized Channel Attention,Propagation and Aggregation i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,包括:(1)提出构建三阶段框架的半监督学习方法;(1.1)将对比学习、监督学习以及半监督学习统一在三阶段的半监督学习框架中;(1.2)利用模型自身的分类能力在第二阶段结束后预测初始置信度阈值,进行第三阶段的半监督学习;(2)提出基于自适应扩充策略的三阶段半监督声纹识别方法;(2.1)利用未被置信度阈值选取的无标签数据预测底线阈值;(2.2)在基于所述三阶段框架的半监督学习方法基础上,利用自适应扩充策略,根据模型的性能自适应地结合底线阈值调整置信度阈值,以合理扩充无标签数据的选取量,进一步提升模型的声纹识别性能;(3)完成对所述基于自适应扩充策略的三阶段半监督声纹识别方法的训练和测试;(3.1)利用所述基于自适应扩充策略的三阶段半监督声纹识别方法训练半监督声纹识别模型;(3.2)完成训练后模型的性能测试。2.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:对有标签数据和无标签数据进行数据强增强和数据弱增强,其中数据强增强是在原始音频中加入音乐、人声、噪音或混响脉冲响应,并在特征提取后进行时域

频域增强,数据弱增强是只在特征提取后进行时域

频域增强,时域增强表示为其中X(t)表示时间t下的信号,t1和t2表示数据增强的起止时域,频域增强表示为其中,X(f)表示频段f下的信号,f1和f2表示数据增强的起止频域。3.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:利用无标签声纹数据进行第一阶段对比学习,采用强化对抗训练的对比学习方法构建正负样本对,利用对比学习使模型学习到数据间的相似性,对比学习结束后,获取编码器的参数用于第二阶段。4.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:利用有标签数据在第一阶段对比学习的基础上,进行第二阶段监督学习提升模型的分类能力,当模型的性能趋近稳定时,结束第二阶段监督学习,获取编码器的参数用于第三阶段。5.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:在第二阶段监督学习的基础上进行第三阶段半监督学习,将弱增强的无标签数据经过编码器获取概率向量分布,将概率最大值大于置信度阈值的样本所预测出的标签作为伪标
签,并对强增强数据计算损失其中,表示无标签数据集,x
u
表示无标签数据,f
θ
(
·
)表示编码器,f
θ
(A
...

【专利技术属性】
技术研发人员:王兴梅刘菁瀚杨东梅张越张万松
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1