一种实时噪声大数据的声纹识别方法、系统、设备和介质技术方案

技术编号:35708800 阅读:20 留言:0更新日期:2022-11-23 15:07
本发明专利技术提供了一种实时噪声大数据的声纹识别方法、系统、设备及介质,所述方法包括:获取环境噪声数据,并生成环境噪声数据的对数γ频谱图;将对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;将三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果。本发明专利技术通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征,并采用相似性矩阵与注意力机制结合的方式进行特征融合,有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。运行效率以及分类精准性。运行效率以及分类精准性。

【技术实现步骤摘要】
一种实时噪声大数据的声纹识别方法、系统、设备和介质


[0001]本专利技术涉及声纹识别
,特别是涉及一种实时噪声大数据的声纹识别方法、系统、计算机设备和存储介质。

技术介绍

[0002]近年来,环境声音分类在环保监控、家庭自动化、场景分析和机器听觉中都受到了广泛的关注。环境声音分类与音乐/语音识别任务不同之处在于环境声音分类的时间结构特征和频率特征更加复杂多变,应用传统技术方案通常无法获得良好的性能。
[0003]目前学术界为了提升环境声音分类性能主要采用DSP信号处理和机器学习两种技术。然而,DSP信号处理技术虽然可以处理一些浅层简单特征,且在环境声音分类中成功应用了一些基于字典的方法,但这类方案往往需要繁琐的特征设计过程才能获得一定的精度。同时,环境声音分类中应用的机器学习技术,如高斯混合模型(GMM)、支持向量机(SVM)和神经网络模型,虽然应用了多种特征变换方案能够处理复杂的高维特征,在一定程度上提升了特征提取能力,但其不仅模型泛化能力较弱,而且识别过程中仅关注声谱图中的特征频率,而忽略了环境声音具有复杂的时间结构特征,如环境声音可以是短暂的(如枪声)、连续的(如下雨)或间歇的(如狗叫声)等,并不能简单地通过现有技术来有效模拟的问题,进而降低了模型的稳健性和分类精准性。

技术实现思路

[0004]本专利技术的目的是提供一种实时噪声大数据的声纹识别方法,通过设计一种基于时间结构域和频域的高区分度双重域学习网络来专注于语义相关、突出帧以及音频数据时间结构特征等内容,解决现有环境噪声数据识别的缺陷,有针对性的提高城市环境噪音音频分类模型的鲁棒性和运行效率的同时,进一步提高环境噪音音频分类的精准性。
[0005]为了实现上述目的,有必要针对上述技术问题,提供了一种实时噪声大数据的声纹识别方法、系统、计算机设备和存储介质。
[0006]第一方面,本专利技术实施例提供了一种实时噪声大数据的声纹识别方法,所述方法包括以下步骤:获取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。
[0007]进一步地,所述生成所述环境噪声数据的对数γ频谱图的步骤包括:将所述环境噪声数据进行短时傅立叶变换处理,得到对应的能量谱图;计算所述能量谱图的Delta信息,并采用γ型滤波器对所述能量谱图进行滤波处理,得到γ频谱图;
将所述Delta信息和所述γ频谱图串联,得到所述对数γ频谱图。
[0008]进一步地,所述将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图的步骤包括:将所述对数γ频谱图按照预设时间间隔进行分割,得到若干个对数γ频谱分割图;将所述对数γ频谱分割图的分割时序作为第三维次数,并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列,得到所述三维对数γ频谱图。
[0009]进一步地,所述双重域特征提取模块包括并联的高区分度时间结构特征模块和高区分度频率特征模块;所述高区分度时间结构特征模块为门控循环单元网络;所述高区分度频率特征模块包括依次连接的输入层、反事实因果注意力学习层和输出层。
[0010]进一步地,所述反事实因果注意力学习层的损失函数表示为:式中,式中,式中,式中,式中,其中,表示反事实因果注意力学习层的损失值;表示分类标签;和均表示交叉熵损失函数;表示的第i个分量;A表示反事实因果注意力学习层得到的注意力图;表示反事实因果注意力学习层基于反事实干预得到的注意力图;表示softmax分类器基于注意力图A的输出结果的第i个分量;表示softmax分类器基于注意力图的输出结果;表示因果推理干预;表示三维对数γ频谱图;A表示反事实因果注意力学习层得到的注意力图;X表示频率特征图;Y (A=A, X=X)表示使用A原值的注意力计算
结果;Y (do(A=),X=X)表示反事实选择时,用代替A后的注意力计算结果。
[0011]进一步地,所述将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的步骤包括:将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取,得到对应的时间结构特征图和频率特征图;将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合,得到时频融合特征;将所述时频融合特征依次输入所述下采样模块、全连接层和softmax分类器进行处理,得到所述声纹识别结果。
[0012]进一步地,所述将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合,得到时频融合特征的步骤包括:根据所述时间结构特征图和所述频率特征图,得到特征相似矩阵;将所述特征相似矩阵分别输入第一卷积层和第二卷积层进行卷积处理,得到对应的时间权重矩阵和频率权重矩阵;根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征图进行融合,得到所述时频融合特征。
[0013]第二方面,本专利技术实施例提供了一种实时噪声大数据的声纹识别系统,所述系统包括:数据获取模块,用于取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;预处理模块,用于将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;声纹识别模块,用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。
[0014]第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0015]第四方面,本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0016]上述本申请提供了一种实时噪声大数据的声纹识别方法、系统、计算机设备及存储介质,通过所述方法,实现了在获取环境噪声数据后,生成对应的对数γ频谱图,并将对其进行预处理得到的三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的技术方案。与现有技术相比,该实时噪声大数据的声纹识别方法,通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征,并采用相似性矩阵与注意力机制结合的方式进行特征融合,有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。
附图说明
[0017]图1是本专利技术实施例中实时噪声大数据的声纹识别方法的应用场景示意图;图2是本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时噪声大数据的声纹识别方法,其特征在于,所述方法包括以下步骤:获取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。2.如权利要求1所述的实时噪声大数据的声纹识别方法,其特征在于,所述生成所述环境噪声数据的对数γ频谱图的步骤包括:将所述环境噪声数据进行短时傅立叶变换处理,得到对应的能量谱图;计算所述能量谱图的Delta信息,并采用γ型滤波器对所述能量谱图进行滤波处理,得到γ频谱图;将所述Delta信息和所述γ频谱图串联,得到所述对数γ频谱图。3.如权利要求1所述的实时噪声大数据的声纹识别方法,其特征在于,所述将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图的步骤包括:将所述对数γ频谱图按照预设时间间隔进行分割,得到若干个对数γ频谱分割图;将所述对数γ频谱分割图的分割时序作为第三维次数,并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列,得到所述三维对数γ频谱图。4.如权利要求3所述的实时噪声大数据的声纹识别方法,其特征在于,所述双重域特征提取模块包括并联的高区分度时间结构特征模块和高区分度频率特征模块;所述高区分度时间结构特征模块为门控循环单元网络;所述高区分度频率特征模块包括依次连接的输入层、反事实因果注意力学习层和输出层。5.如权利要求4所述的实时噪声大数据的声纹识别方法,其特征在于,所述反事实因果注意力学习层的损失函数表示为:式中,式中,式中,式中,式中,
其中,表示反事实因果注意力学习层的损失值;表示分类标签;和均表示交叉熵损失函数;表示的第i个分量;A表示反事实因果注意力学习层得到的注意力图;表示反事实因果注意力学习层基于反事实干预得到的注意力图;表示softmax分类器基于注意力图A的输出结果的第i个分量;表示softmax分类器基于注意力图的输出结果;表示因果推理干预;表示三维对数...

【专利技术属性】
技术研发人员:郑建辉
申请(专利权)人:广州声博士声学技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1