【技术实现步骤摘要】
一种声纹识别的方法、装置以及存储介质
[0001]本专利技术涉及人工智能
,特别涉及声纹识别
,尤其涉及一种声纹识别的方法、装置以及存储介质。
技术介绍
[0002]随着深度学习的发展,深度神经网络也被应用到声纹识别领域。目前主流的声纹识别系统一般分成两个部分,即前端embedding提取部分和后端损失函数计算及相似度计算部分。在训练阶段,采用前端embedding提取网络提取embedding,并输入到后端损失函数计算部分,通过后向传播更新网络参数;在测试阶段,将后端损失函数计算部分替换为相似度计算部分,通过前向传播提取embedding,计算相似度。前端embedding提取部分采用神经网络结构,为了加快训练速度,目前主要采用卷积算子进行堆叠,一维卷积和二维卷积均得到成功应用。为了降低训练难度,加深网络层数,通常将若干个卷积堆叠结构变成残差结构,最为成功的网络结构就是ResNet。
[0003]针对几乎所有网络结构都是将空间维度和通道维度混合到一起进行特征抽象的问题,文献1(Squeeze
‑
【技术保护点】
【技术特征摘要】
1.一种声纹识别的方法,其特征在于,使用了通过如下步骤训练的声纹识别模型来进行声纹识别:S1,获取训练集,所述训练集包含多条音频数据;S2,使用所述训练集对所述声纹识别模型进行训练,所述声纹识别模型基于神经网络实现,包含融合了至少两个压缩激励子模块的处理模块;所述步骤S2包括:S21,提取所述训练集中包含的音频数据的音频特征;S22,对所述音频特征进行切片操作,得到多个相同长度的音频切片特征;S23,每次随机获取固定数量的所述音频切片特征,输入到所述声纹识别模型进行训练,迭代多次训练,得到训练好的声纹识别模型。2.根据权利要求1所述的方法,其特征在于,所述神经网络为残差网络,所述处理模块为融合了通道压缩
‑
激励SE子模块和频率压缩
‑
激励fwSE子模块的SEfwSE模块;所述SE子模块用于压缩所述音频切片特征的时间维度和频率维度,激励所述音频切片特征的通道维度;所述fwSE子模块用于压缩所述音频切片特征的时间维度和通道维度,激励所述音频切片特征的频率维度。3.根据权利要求2所述的方法,其特征在于,所述通道压缩
‑
激励SE子模块的压缩函数Fsq和激励函数Fex的公式分别为:F
ex
(z,W)=σ(g(z,W))=σ(W2δ(W1z));其中,x
c
为所述音频切片特征,T为所述音频切片特征的帧数,F为所述音频切片特征的维度,i为正整数,j为正整数,z为二维张量,W表示线性变换矩阵,δ表示ReLU激活函数,σ表示sigmoid函数,g表示中间函数,W1表示对通道数进行压缩以减小计算量的第一线性层,W2表示将压缩后的通道数还原到压缩前大小的第二线性层。4.根据权利要求2所述的方法,其特征在于,所述频率压缩
‑
激励fwSE子模块的压缩函数Fsq和激励函数Fex的公式分别为:F
ex
(z,W)=σ(g(z,W))=σ(W2δ(W1z));其中,x<...
【专利技术属性】
技术研发人员:徐敏,肖龙源,李稀敏,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。