【技术实现步骤摘要】
labeling.Journal of Advances in Neural Information Processing Systems,2021,34:18408
‑
18419.提出课程伪标签的方法,在固定匹配方法的基础上,考虑不同类别的数据学习难度不同的问题,研究不同类别的置信度阈值,实验验证提出的方法进一步提升了模型的性能。6.基于图卷积网络的多说话人会议数据半监督学习方法:2022年Tong F,Zheng S,Zhang M,et al.Graph Convolutional Network Based Semi
‑
Supervised Learning on Multi
‑
Speaker Meeting Data[C]//ICASSP 2022
‑
2022IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2022:6622
‑
6626.提出一种基于图卷积网络的半监督学习方法,在给定一个预先训练的嵌入提取器的基础上,对标记数据训练图卷积网络,并用“伪标记”对未标记数据进行聚类,在此基础上,提出一种自校正训练机制,该机制在伪标签上迭代运行聚类训练校正过程。实验结果表明,该方法有效地利用了未标记数据,提高了说话人识别的准确率。
技术实现思路
[0003]本专利技术的目的是提供一种对无标签数据选取具备高准确率和高利用率两种特性的基 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,包括:(1)提出构建三阶段框架的半监督学习方法;(1.1)将对比学习、监督学习以及半监督学习统一在三阶段的半监督学习框架中;(1.2)利用模型自身的分类能力在第二阶段结束后预测初始置信度阈值,进行第三阶段的半监督学习;(2)提出基于自适应扩充策略的三阶段半监督声纹识别方法;(2.1)利用未被置信度阈值选取的无标签数据预测底线阈值;(2.2)在基于所述三阶段框架的半监督学习方法基础上,利用自适应扩充策略,根据模型的性能自适应地结合底线阈值调整置信度阈值,以合理扩充无标签数据的选取量,进一步提升模型的声纹识别性能;(3)完成对所述基于自适应扩充策略的三阶段半监督声纹识别方法的训练和测试;(3.1)利用所述基于自适应扩充策略的三阶段半监督声纹识别方法训练半监督声纹识别模型;(3.2)完成训练后模型的性能测试。2.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:对有标签数据和无标签数据进行数据强增强和数据弱增强,其中数据强增强是在原始音频中加入音乐、人声、噪音或混响脉冲响应,并在特征提取后进行时域
‑
频域增强,数据弱增强是只在特征提取后进行时域
‑
频域增强,时域增强表示为其中X(t)表示时间t下的信号,t1和t2表示数据增强的起止时域,频域增强表示为其中,X(f)表示频段f下的信号,f1和f2表示数据增强的起止频域。3.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:利用无标签声纹数据进行第一阶段对比学习,采用强化对抗训练的对比学习方法构建正负样本对,利用对比学习使模型学习到数据间的相似性,对比学习结束后,获取编码器的参数用于第二阶段。4.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:利用有标签数据在第一阶段对比学习的基础上,进行第二阶段监督学习提升模型的分类能力,当模型的性能趋近稳定时,结束第二阶段监督学习,获取编码器的参数用于第三阶段。5.根据权利要求1所述的一种基于自适应扩充策略的三阶段半监督声纹识别方法,其特征在于,所述的步骤(1.1)具体包括:在第二阶段监督学习的基础上进行第三阶段半监督学习,将弱增强的无标签数据经过编码器获取概率向量分布,将概率最大值大于置信度阈值的样本所预测出的标签作为伪标
签,并对强增强数据计算损失其中,表示无标签数据集,x
u
表示无标签数据,f
θ
(
·
)表示编码器,f
θ
(A
...
【专利技术属性】
技术研发人员:王兴梅,刘菁瀚,杨东梅,张越,张万松,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。