一种噪声环境下的自监督说话人识别模型构建方法及系统技术方案

技术编号:37498048 阅读:31 留言:0更新日期:2023-05-07 09:34
本发明专利技术提供了一种噪声环境下的自监督说话人识别模型构建方法及系统,方法包括如下步骤:S1.截取一段语音;S2.输入到卷积滤波层,得到特征图;S3.输入到注意力机制模块和残差模块;S4.将S3的结果输入到注意力机制模块和残差模块;S5.提取得到声学特征;S6.使用对比学习方法训练双编码器;S7.将声学特征输入到双编码器,得到特征向量;S8.对所有原始语音提取特征向量后做聚类产生伪标签;S9.通过伪标签对双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率不再降低,完成模型构建。本发明专利技术可以有效抑制存在于声学特征通道和空间中的噪声信息,并减少噪声标签对自监督说话人识别准确率的影响。别准确率的影响。别准确率的影响。

【技术实现步骤摘要】
一种噪声环境下的自监督说话人识别模型构建方法及系统


[0001]本专利技术涉及说话人识别
,尤其是涉及一种噪声环境下的自监督说话人识别模型构建方法及系统。

技术介绍

[0002]说话人识别作为生物特征识别的重要组成部分,广泛地应用于安全领域、医疗领域、金融领域以及智能家居中。目前,在安静的实验室环境下以及标注语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,在现实应用中,受到环境中不同噪声和缺乏标注语音数据的影响,系统性能对比纯净环境和充足标注语音数据环境明显降低,严重阻碍了说话人识别技术的应用发展。
[0003]目前大多语音去噪的方案都是基于深度神经网络来进行,体积大,计算量高,不利于加入到具体的说话人识别等任务中。因此,目前的说话人识别算法无法很好地满足真实场景下带噪声的说话人识别的需求,其识别准确率有待提高。
[0004]对说话人识别自监督方法而言,大部分方案都是使用对比学习或迭代学习的方法来进行,其会产生较多的噪声标签,从而影响最终模型性能,因此如何避免噪声标签对说话人识别准确率造成影响十分重要。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种噪声环境下的自监督说话人识别模型构建方法,其特征在于,包括如下步骤:S1.在原始语音中随机截取一段语音;S2.将截取后的语音输入到可解释的卷积滤波层,输出得到特征图;S3.将输入到注意力机制模块,得到,再将输入到残差模块,得到;S4.将输入到注意力机制模块,得到,再将输入到残差模块,得到;S5.提取得到声学特征 ;S6.使用对比学习方法训练由ECAPA

TDNN网络和MFA

Conformer网络构成的双编码器;S7.将所述声学特征输入到所述双编码器,得到特征向量S8.对所有原始语音提取所述特征向量后,做聚类产生伪标签;S9.通过所述伪标签对所述双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率EER不再降低,完成模型构建。2.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S1中,加载原始音频,对原始语音数据进行读取,语音的采样频率为16000Hz。3.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S1中,截取的一段语音的长度为4800毫秒,若不足则在语音两端补零。4.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S2中,可解释的卷积滤波层为带通滤波器,其中rect是矩形带通滤波,n是语音信号长度,和分别为低截止频率和高截止频率。5.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S5中,基于多尺度方法,在时间序列拼接、和,提取声学特征。6.一种噪声环境下的自监督说话人识别模型构...

【专利技术属性】
技术研发人员:张葛祥曾鑫姚光乐杨强方祖林陈柯屹
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1