【技术实现步骤摘要】
一种时序声纹特征组合识别方法及装置
[0001]本专利技术涉及语音识别领域,尤其涉及一种时序声纹特征组合识别方法及装置。
技术介绍
[0002]随着机器学习的迅速发展,声纹识别技术在金融反欺诈等方有着巨大的潜力和迫切的需求。深度学习采用多层神经层的结构,通过逐层传递从输入层原始数据中提取信息,自动挖掘大型数据集中复杂的复杂表示特征,避免了人工特征工程。深度神经网络、堆叠去噪自动编码器和长短时记忆网络已得到了应用,较于传统的机器学习方法有良好动态学习效果。卷积神经网络作为一种分布式并行深度网络模型,也在故障诊断中得到了广泛的应用。
[0003]与其他深度学习方法相比,时延神经网络(TNDD)相当于一维CNN。TDNN 最早是在1989年,由Hinton提出,目的在于解决音频的识别。但是这种结构只考虑了局部的上下文信息,而ECAPA
‑
TDNN则了考虑全局的信息,因此更适合对一段时间内的声纹特征进行提取。但是,现有方案并没有着重考虑音频的连续变化中的差异性,这就导致了现有模型在声纹识别的准确性和稳定性方 ...
【技术保护点】
【技术特征摘要】
1.一种时序声纹特征组合识别方法,其特征在于:包括以下步骤,S1,获取音频信号的语音特征;S2,对所述语音特征进行增强处理,得到增强后的语音特征C,其中C=C
t+1
+W
·
(C
t+1
‑
C
t
);其中,C
t
为t时刻的语音特征,W为语音特征连续变化的权重值,C
t+1
为t+1时刻的语音特征,增强后的语音特征包括初始语音特征参数和变化语音参数;S3,将增强后的语音特征输入至声纹识别网络模型,对声纹识别网络模型进行训练,直至所述声纹识别网络模型收敛。2.根据权利要求1所述的时序声纹特征组合识别方法,其特征在于:所述S3还包括:将增强后的语音特征选取固定长度后,输入至所述声纹识别网络模型。3.根据权利要求1所述的时序声纹特征组合识别方法,其特征在于:在所述S1之前还包括:对所述音频信号进行降噪处理和去混响处理。4.根据权利要求1所述的时序声纹特征组合识别方法,其特征在于:所述声纹识别网络模型包括:输入层、特征提取层以及输出层,所述输入层为时延神经网络结构,其用于对增强后的语音特征进行预输入处理;所述特征提取层包括SE残差网络层和特征融合层,增强后的语音特征通过输入层进行预输入处理后,将输入的语音特征参数利用所述SE残差网络层进行特征降维以及维度回升处理后,得到语音特征矢量,将所述语音特征矢量通过所述特征融合层进行多层特征计算得到声纹特征向量;所述输出层包括注意力统计池化层和AAM
‑
Softmax层,所述声纹特征向量通过所述注意力统计池化层对声纹分类概率进行池化,所述AAM
‑
Softmax层用于根据声纹分类概率对所述音频信号进行声纹分类。5.根据权利要求5所述的时序声纹特征组合识别方法,其特征在于:所述SE残差网络层包括多个SE残差...
【专利技术属性】
技术研发人员:张广学,肖龙源,李稀敏,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。