一种自监督声纹识别方法和系统技术方案

技术编号:35902869 阅读:53 留言:0更新日期:2022-12-10 10:39
本发明专利技术提供一种自监督声纹识别方法,包括:获取语音数据,并将语音数据处理为4s一段的语音片段;将语音片段分为三个子片段,第一子片段为0

【技术实现步骤摘要】
一种自监督声纹识别方法和系统


[0001]本专利技术涉及声纹识别领域,特别是指一种自监督声纹识别方法和系统。

技术介绍

[0002]声纹识别是生物识别技术的一种,通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量,可通过计算两段语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户。
[0003]现有声纹识别技术多是监督式声纹识别训练方法,训练数据需要有标签,当然还有一些半监督声纹识别训练方法,也需要有足够的标签。
[0004]然而,对数据进行标签化需要大量的人力、物力和财力,这就造成了训练数据的不足。实际上,可以采集到的语音数据有很多,但是这些数据缺少标签或是标签可能存在错误。为了极大利用这些语音数据,提出了自监督声纹识别训练方法。但现有的自监督声纹训练方法与监督式声纹训练方法相比还有一定的差距。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种自监督声纹识别方法,通过重叠音频与原始音频的差异化损失,来进行网络参数的优化训练。另外,提出了一种解决可能出现的神经网络权重参数同质化问题的方案,保证了同一条语音不同部分的整体视野与重叠视野声纹特征统一,提高了声纹识别的准确率。
[0006]本专利技术采用如下技术方案:
[0007]一种自监督声纹识别方法,包括:
[0008]获取语音数据,并将语音数据处理为4s一段的语音片段;
[0009]将语音片段分为三个子片段,第一子片段为0

2s的语音,第二子片段为1

3的语音,第三子片段为2

4s的语音,得到第一子片段集、第二子片段集以及第三子片段集,并将第三子片段集进行增强得到增强后的第三子片段集;
[0010]将第一子片段集和第二子片段集输入teacher网络训练,将增强后的第三子片段集输入student网络训练;teacher网络训练为:teacher网络的embedding层先进行随机mask,然后对teacher所有输出embedding进行平均,student网络训练为:对student网络的embedding层进行随机mask,然后用mask后的embedding层与原始student网络中的embedding层进行损失计算;
[0011]在每一次迭代后,对同层神经元的权重参数进行相似性计算,完成训练。
[0012]具体地,所述将第三子片段集进行增强得到增强后的第三子片段集,具体为:
[0013]第三子片段集采用Musan、RIRS_NOISES数据集进行增强,以及频域的时间、频谱增强。
[0014]具体地,所述teacher网络、student网络为包括但不限于repvgg、resnet、ecapa

tdnn、dpn任一神经网络。
[0015]具体地,所述teacher网络和students网络采用相同的网络参数,teacher网络增加dropout层。
[0016]具体地,所述在每一次迭代后,对同层神经元的权重参数进行相似性计算,具体为:
[0017]若出现相似的权重参数,则进行变换w'=w+a*mean,其中w为当前权重参数,w'为变换后权重参数,a为变换系数,mean为计算权重的均值矩阵。
[0018]本专利技术实施例另一方面提供一种自监督声纹识别系统,包括:
[0019]语音获取单元:获取语音数据,并将语音数据处理为4s一段的语音片段;
[0020]语音片段处理单元:将语音片段分为三个子片段,第一子片段为0

2s的语音,第二子片段为1

3的语音,第三子片段为2

4s的语音,得到第一子片段集、第二子片段集以及第三子片段集,并将第三子片段集进行增强得到增强后的第三子片段集;
[0021]第一训练单元:将第一子片段集和第二子片段集输入teacher网络训练,将增强后的第三子片段集输入student网络训练;teacher网络训练为:teacher网络的embedding层先进行随机mask,然后对teacher所有输出embedding进行平均,student网络训练为:对student网络的embedding层进行随机mask,然后用mask后的embedding层与原始student网络中的embedding层进行损失计算;
[0022]第二训练单元:在每一次迭代后,对同层神经元的权重参数进行相似性计算,完成训练。
[0023]本专利技术实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种自监督声纹识别方法步骤。
[0024]本专利技术实施例又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种自监督声纹识别方法步骤。
[0025]由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:
[0026]本专利技术提供一种自监督声纹识别方法,包括:获取语音数据,并将语音数据处理为4s一段的语音片段;将语音片段分为三个子片段,第一子片段为0

2s的语音,第二子片段为1

3的语音,第三子片段为2

4s的语音,得到第一子片段集、第二子片段集以及第三子片段集,并将第三子片段集进行增强得到增强后的第三子片段集;将第一子片段集和第二子片段集输入teacher网络训练,将增强后的第三子片段集输入student网络训练;teacher网络训练为:teacher网络的embedding层先进行随机mask,然后对teacher所有输出embedding进行平均,student网络训练为:对student网络的embedding层进行随机mask,然后用mask后的embedding层与原始student网络中的embedding层进行损失计算;在每一次迭代后,对同层神经元的权重参数进行相似性计算,完成训练。本专利技术提供的方法,通过重叠音频与原始音频的差异化损失,来进行网络参数的优化训练。另外,提出了一种解决可能出现的神经网络权重参数同质化问题的方案,保证了同一条语音不同部分的整体视野与重叠视野声纹特征统一,提高了声纹识别的准确率。
附图说明
[0027]图1为本专利技术实施例提供的一种自监督声纹识别方法流程图;
[0028]图2为本专利技术实施例提供的一种自监督声纹识别方法训练结构图;
[0029]图3为本专利技术实施例提供的一种跨用户行为识别迁移学习系统架构图;
[0030]图4为本专利技术实施例提供的一种电子设备示意图;
[0031]图5为本专利技术实施例提供的一种计算机可读存储介质的实施例示意图。
[0032]以下结合附图和具体实施例对本专利技术作进一步详述。
具体实施方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自监督声纹识别方法,其特征在于,包括:获取语音数据,并将语音数据处理为4s一段的语音片段;将语音片段分为三个子片段,第一子片段为0

2s的语音,第二子片段为1

3s的语音,第三子片段为2

4s的语音,得到第一子片段集、第二子片段集以及第三子片段集,并将第三子片段集进行增强得到增强后的第三子片段集;将第一子片段集和第二子片段集输入teacher网络训练,将增强后的第三子片段集输入student网络训练;teacher网络训练为:teacher网络的embedding层先进行随机mask,然后对teacher所有输出embedding进行平均,student网络训练为:对student网络的embedding层进行随机mask,然后用mask后的embedding层与原始student网络中的embedding层进行损失计算;在每一次迭代后,对同层神经元的权重参数进行相似性计算,完成训练。2.根据权利要求1所述的一种自监督声纹识别方法,其特征在于,所述将第三子片段集进行增强得到增强后的第三子片段集,具体为:第三子片段集采用Musan、RIRS_NOISES数据集进行增强,以及频域的时间、频谱增强。3.根据权利要求1所述的一种自监督声纹识别方法,其特征在于,所述teacher网络、student网络为包括但不限于repvgg、resnet、ecapa

tdnn、dpn任一神经网络。4.根据权利要求3所述的一种自监督声纹识别方法,其特征在于,所述Teacher网络和student网络采用相同的网络参数,teacher网络增加dropout层。5.根据权利要求4所述的一种自监督声纹识别方法,其特征在于,所述在每...

【专利技术属性】
技术研发人员:张广学肖龙源李海洲李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1