一种声纹识别模型训练方法、装置、设备及可读介质制造方法及图纸

技术编号:33460244 阅读:26 留言:0更新日期:2022-05-19 00:41
本申请公开了一种声纹识别模型训练方法、装置、设备及可读介质,其中声纹模型训练方法包括以下步骤:获取训练集数据;对训练集数据进行格式整理,将整理后的数据输入CNN网络;对CNN网络的输出数据进行压缩,将压缩后的数据输入ETDNN网络;对ETDNN网络的输出数据进行池化运算,计算损失值,根据损失值更新CNN网络参数和ETDNN网络参数,直至网络参数趋于稳定,获得训练好的声纹识别模型。采用本申请公开的声纹模型训练方法获取的声纹识别模型,能够更准确的识别说话人在不同时刻或是不同身体健康状态下的语音,从而可以有效地增加声纹特征提取的有效性和鲁棒性。取的有效性和鲁棒性。取的有效性和鲁棒性。

【技术实现步骤摘要】
一种声纹识别模型训练方法、装置、设备及可读介质


[0001]本申请涉及声纹识别
,具体涉及一种声纹识别模型训练方法、装置、设备及可读介质。

技术介绍

[0002]声纹识别(Voiceprint Recognize)是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。
[0003]但是,在不同时刻或是不同身体健康状态下,同一个人的发声状态会发生一些变化,但现有的声纹模型解决这个问题的方案还有待提高。

技术实现思路

[0004]本申请的目的在于至少能解决上述现有技术中的技术问题之一。
[0005]第一方面,本申请的实施例提供了一种声纹识别方法,包括以下步骤:获取训练集数据;对训练集数据进行格式整理,将整理后的数据输入CNN网络;对CNN网络的输出数据进行压缩,将压缩后的数据输入ETDNN网络;对ETDNN网络的输出数据进行池化运算,计算损失值,根据损失值更新CNN网络参数和ETDNN网络参数,直至网络参数趋于稳定,获得训练好的声纹识别模型。
[0006]在一些实施例中,所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型训练方法,其特征在于,所述方法包括以下步骤:获取训练集数据;对训练集数据进行格式整理,将整理后的数据输入CNN网络;对CNN网络的输出数据进行压缩,将压缩后的数据输入ETDNN网络;对ETDNN网络的输出数据进行池化运算,计算损失值,根据损失值更新CNN网络参数和ETDNN网络参数,直至网络参数趋于稳定,获得训练好的声纹识别模型。2.根据权利要求1所述的声纹识别模型训练方法,其特征在于,所述对训练集数据进行格式整理,包括将训练集数据整理成如下格式:[批大小,语音片段长度,MFCC特征维度,1];其中,所述批大小为每次送入网络的数据单元个数;所述语音片段长度为每次送入网络的语音长度,单位为帧;所述MFCC特征维度为每帧的MFCC特征数量。3.根据权利要求1所述的声纹识别模型训练方法,其特征在于,所述CNN网络具有两层,各层CNN网络均包括二维卷积层、批归一化处理和激活函数层;经过格式整理后的训练数据输入第一层CNN网络后,依次进行二维卷积计算、批归一化处理以及激活处理;之后在第二层CNN网络中,再次进行二维卷积计算、批归一化处理以及激活处理。4.根据权利要求1所述的声纹识别模型训练方法,其特征在于,对CNN网络的输出数据进行压缩,包括:将所述CNN网络的输出数据压缩成如下结构:[批大小,语音片段长度,MFCC特征维度]。5.根据权利要求1所述的声纹识别模型训练方法,其特征在于,所述ETDNN网络包括全连接层、批归一化层和激活函数层;经过压缩处理之后的CNN网络的输出数据输入ETDNN网络后,依次经过全连接计算、批归一化处理和激活...

【专利技术属性】
技术研发人员:张广学肖龙源李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1