一种噪声环境下的自监督说话人识别模型构建方法及系统技术方案

技术编号:37498048 阅读:17 留言:0更新日期:2023-05-07 09:34
本发明专利技术提供了一种噪声环境下的自监督说话人识别模型构建方法及系统,方法包括如下步骤:S1.截取一段语音;S2.输入到卷积滤波层,得到特征图;S3.输入到注意力机制模块和残差模块;S4.将S3的结果输入到注意力机制模块和残差模块;S5.提取得到声学特征;S6.使用对比学习方法训练双编码器;S7.将声学特征输入到双编码器,得到特征向量;S8.对所有原始语音提取特征向量后做聚类产生伪标签;S9.通过伪标签对双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率不再降低,完成模型构建。本发明专利技术可以有效抑制存在于声学特征通道和空间中的噪声信息,并减少噪声标签对自监督说话人识别准确率的影响。别准确率的影响。别准确率的影响。

【技术实现步骤摘要】
一种噪声环境下的自监督说话人识别模型构建方法及系统


[0001]本专利技术涉及说话人识别
,尤其是涉及一种噪声环境下的自监督说话人识别模型构建方法及系统。

技术介绍

[0002]说话人识别作为生物特征识别的重要组成部分,广泛地应用于安全领域、医疗领域、金融领域以及智能家居中。目前,在安静的实验室环境下以及标注语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,在现实应用中,受到环境中不同噪声和缺乏标注语音数据的影响,系统性能对比纯净环境和充足标注语音数据环境明显降低,严重阻碍了说话人识别技术的应用发展。
[0003]目前大多语音去噪的方案都是基于深度神经网络来进行,体积大,计算量高,不利于加入到具体的说话人识别等任务中。因此,目前的说话人识别算法无法很好地满足真实场景下带噪声的说话人识别的需求,其识别准确率有待提高。
[0004]对说话人识别自监督方法而言,大部分方案都是使用对比学习或迭代学习的方法来进行,其会产生较多的噪声标签,从而影响最终模型性能,因此如何避免噪声标签对说话人识别准确率造成影响十分重要。

技术实现思路

[0005]本专利技术提供一种噪声环境下的自监督说话人识别模型构建方法及系统,可以有效抑制存在于声学特征通道和空间中的噪声信息,并减少噪声标签对自监督说话人识别准确率的影响。
[0006]本专利技术实施例的一方面公开了一种噪声环境下的自监督说话人识别模型构建方法,包括如下步骤:S1.在原始语音中随机截取一段语音;S2.将截取后的语音输入到可解释的卷积滤波层,输出得到特征图;S3.将输入到注意力机制模块,得到,再将输入到残差模块,得到;S4.将输入到注意力机制模块,得到,再将输入到残差模块,得到;S5.提取得到声学特征;S6.使用对比学习方法训练由ECAPA

TDNN网络和MFA

Conformer网络构成的双编码器;S7.将所述声学特征输入到所述双编码器,得到特征向量;
S8.对所有原始语音提取所述特征向量后,做聚类产生伪标签;S9.通过所述伪标签对所述双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率EER不再降低,完成模型构建。
[0007]在一些实施例中,在S1中,加载原始音频,对原始语音数据进行读取,语音的采样频率为16000Hz。
[0008]在一些实施例中,在S1中,截取的一段语音的长度为4800毫秒,若不足则在语音两端补零。
[0009]在一些实施例中,在S2中,可解释的卷积滤波层为带通滤波器,其中rect是矩形带通滤波,n是语音信号长度,和分别为低截止频率和高截止频率。
[0010]在一些实施例中,在S5中,基于多尺度方法,在时间序列拼接,提取声学特征。
[0011]本专利技术实施例的另一方面公开了一种噪声环境下的自监督说话人识别模型构建系统,包括:语音截取模块,用于在原始语音中随机截取一段语音;滤波模块,用于将截取后的语音输入到可解释的卷积滤波层,输出得到特征图;第一提取模块,用于将输入到注意力机制模块,得到,再将输入到残差模块,得到;第二提取模块,用于将输入到注意力机制模块,得到,再将输入到残差模块,得到;第三提取模块,用于提取得到声学特征;第一训练模块,用于使用对比学习方法训练由ECAPA

TDNN网络和MFA

Conformer网络构成的双编码器;第四提取模块,用于将所述声学特征输入到所述双编码器,得到特征向量;聚类模块,用于对所有原始语音提取特征向量后,做聚类产生伪标签;第二训练模块,用于通过所述伪标签对所述双编码器进行监督训练;模型构建模块,用于重复控制所述第四提取模块、聚类模块和第二训练模块工作,直至等错误率EER不再降低,完成模型构建。
[0012]在一些实施例中,所述噪声环境下的自监督说话人识别模型构建系统还包括:处理器,分别与所述语音截取模块、滤波模块、第一提取模块、第二提取模块、第三提取模块、第一训练模块、第四提取模块、聚类模块、第二训练模块和模型构建模块连接;存
储器,与所述处理器连接,并存储有可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时,控制所述语音截取模块、滤波模块、第一提取模块、第二提取模块、第三提取模块、第一训练模块、第四提取模块、聚类模块、第二训练模块和模型构建模块工作,以实现上述中任一项所述的噪声环境下的自监督说话人识别模型构建方法。
[0013]综上所述,本专利技术至少具有以下有益效果:本专利技术对已有的Sincnet特征进行改进,通过使用CBAM模块和多尺度方法来降低噪声信息对声学特征的干扰,提高声学特征的鲁棒性。其中CBAM注意力机制模块可以有效抑制存在于声学特征通道和空间中的噪声信息。而不同深度的声学特征输出,具有不同的涵义,如浅层特征可能代表说话人语速、口音等,深层特征代表基因轮廓等。因此使用多尺度方法在时间序列拼接提取出的浅层和深层特征,可获取具有多种信息的声学特征。
[0014]本专利技术在主流的迭代自监督学习方法上使用双编码器网络结构和样本筛选策略来提升模型识别能力。在模型训练过程中,双编码器中的两个网络可以从相同样本中学习到不同的特征提取能力,形成优势互补,而样本筛选策略可以过滤掉大部分错误标签,从而避免模型学习错误信息,影响模型性能。
附图说明
[0015]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本专利技术中所涉及的噪声环境下的自监督说话人识别模型构建的流程示意图。
[0017]图2为本专利技术中所涉及的等错误率变换曲线的示意图。
[0018]图3为本专利技术中所涉及的ECAPA

TDNN网络结构的示意图。
[0019]图4为本专利技术中所涉及的MFA

Conformer网络结构的示意图。
具体实施方式
[0020]在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
[0021]下文的公开提供了许多不同的实施方式或例子用来实现本专利技术实施例的不同结构。为了简化本专利技术实施例的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本专利技术实施例。此外,本专利技术实施例可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
[0022]下面结合附图对本专利技术的实施例进行详细说明。
[0023]如图1所示,本专利技术实施例的一方面公开了一种噪声环境下的自监督说话人识别模型构建方法,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种噪声环境下的自监督说话人识别模型构建方法,其特征在于,包括如下步骤:S1.在原始语音中随机截取一段语音;S2.将截取后的语音输入到可解释的卷积滤波层,输出得到特征图;S3.将输入到注意力机制模块,得到,再将输入到残差模块,得到;S4.将输入到注意力机制模块,得到,再将输入到残差模块,得到;S5.提取得到声学特征 ;S6.使用对比学习方法训练由ECAPA

TDNN网络和MFA

Conformer网络构成的双编码器;S7.将所述声学特征输入到所述双编码器,得到特征向量S8.对所有原始语音提取所述特征向量后,做聚类产生伪标签;S9.通过所述伪标签对所述双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率EER不再降低,完成模型构建。2.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S1中,加载原始音频,对原始语音数据进行读取,语音的采样频率为16000Hz。3.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S1中,截取的一段语音的长度为4800毫秒,若不足则在语音两端补零。4.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S2中,可解释的卷积滤波层为带通滤波器,其中rect是矩形带通滤波,n是语音信号长度,和分别为低截止频率和高截止频率。5.根据权利要求1所述的噪声环境下的自监督说话人识别模型构建方法,其特征在于,在S5中,基于多尺度方法,在时间序列拼接、和,提取声学特征。6.一种噪声环境下的自监督说话人识别模型构...

【专利技术属性】
技术研发人员:张葛祥曾鑫姚光乐杨强方祖林陈柯屹
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1