一种自监督声纹识别方法和系统技术方案

技术编号：35902869 阅读：53 留言：0更新日期：2022-12-10 10:39

本发明专利技术提供一种自监督声纹识别方法，包括：获取语音数据，并将语音数据处理为4s一段的语音片段；将语音片段分为三个子片段，第一子片段为0

全部详细技术资料下载

【技术实现步骤摘要】
一种自监督声纹识别方法和系统

[0001]本专利技术涉及声纹识别领域，特别是指一种自监督声纹识别方法和系统。

技术介绍

[0002]声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，可通过计算两段语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户。
[0003]现有声纹识别技术多是监督式声纹识别训练方法，训练数据需要有标签，当然还有一些半监督声纹识别训练方法，也需要有足够的标签。
[0004]然而，对数据进行标签化需要大量的人力、物力和财力，这就造成了训练数据的不足。实际上，可以采集到的语音数据有很多，但是这些数据缺少标签或是标签可能存在错误。为了极大利用这些语音数据，提出了自监督声纹识别训练方法。但现有的自监督声纹训练方法与监督式声纹训练方法相比还有一定的差距。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术中的上述缺陷，提出一种自监督声纹识别方法，通过重叠音频与原始音频的差异化损失，来进行网络参数的优化训练。另外，提出了一种解决可能出现的神经网络权重参数同质化问题的方案，保证了同一条语音不同部分的整体视野与重叠视野声纹特征统一，提高了声纹识别的准确率。
[0006]本专利技术采用如下技术方案：
[0007]一种自监督声纹识别方法，包括：
[0008]获取语音数据，并将语音数据处理为4s一段的语音片段；
[0009]将语音片段分为三个子片段，第一子片段为0
‑
2...

【技术保护点】

【技术特征摘要】
1.一种自监督声纹识别方法，其特征在于，包括：获取语音数据，并将语音数据处理为4s一段的语音片段；将语音片段分为三个子片段，第一子片段为0
‑
2s的语音，第二子片段为1
‑
3s的语音，第三子片段为2
‑
4s的语音，得到第一子片段集、第二子片段集以及第三子片段集，并将第三子片段集进行增强得到增强后的第三子片段集；将第一子片段集和第二子片段集输入teacher网络训练，将增强后的第三子片段集输入student网络训练；teacher网络训练为：teacher网络的embedding层先进行随机mask，然后对teacher所有输出embedding进行平均，student网络训练为：对student网络的embedding层进行随机mask，然后用mask后的embedding层与原始student网络中的embedding层进行损失计算；在每一次迭代后，对同层神经元的权重参数进行相似性计算，完成训练。2.根据权利要求1所述的一种自监督声纹识别方法，其特征在于，所述将第三子片段集进行增强得到增强后的第三子片段集，具体为：第三子片段集采用Musan、RIRS_NOISES数据集进行增强，以及频域的时间、频谱增强。3.根据权利要求1所述的一种自监督声纹识别方法，其特征在于，所述teacher网络、student网络为包括但不限于repvgg、resnet、ecapa
‑
tdnn、dpn任一神经网络。4.根据权利要求3所述的一种自监督声纹识别方法，其特征在于，所述Teacher网络和student网络采用相同的网络参数，teacher网络增加dropout层。5.根据权利要求4所述的一种自监督声纹识别方法，其特征在于，所述在每...

【专利技术属性】
技术研发人员：张广学，肖龙源，李海洲，李稀敏，叶志坚，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人