【技术实现步骤摘要】
一种声纹鉴权训练方法及系统
本专利技术涉及生物识别技术,尤其涉及声纹识别,具体来说,尤其与一种利用深度学习方法的声纹鉴权训练方法及系统。
技术介绍
传统的方法i-vector方法认为说话内容可以被分为两个部分,一个部分依赖于说话者和信道可变性,另一个部分依赖于其它的相关因素。i-vector声纹识别是一个多步过程,其涉及到使用不同说话者的数据来估计一个通用的背景模型,通常是高斯混合模型,收集充分的统计数据,提取i-vector,最后使用一个分类器来进行识别任务。传统的方法i-vector方法,业界的声纹识别率处于70%左右,且与文本相关。
技术实现思路
本专利技术提供一种与文本无关的声纹识别手段,具体是一种利用深度学习方法的声纹鉴权训练方法及系统,通过构建神经网络,使用SOFTMax分类和基于余弦相似性的三元组损失进行训练评估,识别精度高达到94.45%,相比于传统的i-vector方法,准确率提高了近30%。本专利技术采用以下技术:一种声纹鉴权训练方法,其特征在于,包括以下步骤:加载音频配置文件,对训练需要的音频文件及标准文件进行数据配置和确认;加载训练模型参数,参 ...
【技术保护点】
1.一种声纹鉴权训练方法,其特征在于,包括以下步骤:S1、加载音频配置文件,对训练需要的音频文件及标准文件进行数据配置和确认;S2、加载训练模型参数;S3、构建基于神经网络的训练模型,作为语音识别的训练特征,并完成模型加载;S4、将S1完成的配置数据加载输入训练模型;S5、进行模型训练:S51、通过预训练来初始化神经网络的权重,S52、通过分类器进行处理,S53、通过余弦相似性的三元组损失函数进行评估,S54、通过归一化处理使评估数据标准化;S6、生成声纹识别的声纹库并保存。
【技术特征摘要】
1.一种声纹鉴权训练方法,其特征在于,包括以下步骤:S1、加载音频配置文件,对训练需要的音频文件及标准文件进行数据配置和确认;S2、加载训练模型参数;S3、构建基于神经网络的训练模型,作为语音识别的训练特征,并完成模型加载;S4、将S1完成的配置数据加载输入训练模型;S5、进行模型训练:S51、通过预训练来初始化神经网络的权重,S52、通过分类器进行处理,S53、通过余弦相似性的三元组损失函数进行评估,S54、通过归一化处理使评估数据标准化;S6、生成声纹识别的声纹库并保存。2.根据权利要求1所述的声纹鉴权训练方法,其特征在于:所述训练模型参数,包括训练集大小、训练的帧数和音频语谱图。3.根据权利要求2所述的声纹鉴权训练方法,其特征在于:所述音频语谱图,使用的是维度为(32,32,3)的伪图相。4.根据权利要求1所述的声纹鉴权训练方法,其特征在于:所述分类器采用softmax多类分类器。5.根据权利要求1所述的声纹鉴权训练方法,其特征在于:所述神经网络为ResCNN神经网络,参数为:卷积块Conv3×3、滤波器的尺寸3×3、两个方向上的零填充1、连续跨步1×1参数化。6.根据权利要求1所述的声纹鉴权训练方法,其特征在于:所述三元组损失函数为:其中,a为可调范围在0~2的参数,表示同类样本Positive和Anchor嵌入式向量之间的余弦,表示异类样本N...
【专利技术属性】
技术研发人员:毛海涛,鲍捷,吕春,王明,阴陶,戴荣,
申请(专利权)人:成都傅立叶电子科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。