一种实时噪声大数据的声纹识别方法、系统、设备和介质技术方案

技术编号：35708800 阅读：20 留言：0更新日期：2022-11-23 15:07

本发明专利技术提供了一种实时噪声大数据的声纹识别方法、系统、设备及介质，所述方法包括：获取环境噪声数据，并生成环境噪声数据的对数γ频谱图；将对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；将三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果。本发明专利技术通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征，并采用相似性矩阵与注意力机制结合的方式进行特征融合，有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。运行效率以及分类精准性。运行效率以及分类精准性。

全部详细技术资料下载

【技术实现步骤摘要】
一种实时噪声大数据的声纹识别方法、系统、设备和介质

[0001]本专利技术涉及声纹识别
，特别是涉及一种实时噪声大数据的声纹识别方法、系统、计算机设备和存储介质。

技术介绍

[0002]近年来，环境声音分类在环保监控、家庭自动化、场景分析和机器听觉中都受到了广泛的关注。环境声音分类与音乐/语音识别任务不同之处在于环境声音分类的时间结构特征和频率特征更加复杂多变，应用传统技术方案通常无法获得良好的性能。
[0003]目前学术界为了提升环境声音分类性能主要采用DSP信号处理和机器学习两种技术。然而，DSP信号处理技术虽然可以处理一些浅层简单特征，且在环境声音分类中成功应用了一些基于字典的方法，但这类方案往往需要繁琐的特征设计过程才能获得一定的精度。同时，环境声音分类中应用的机器学习技术，如高斯混合模型(GMM)、支持向量机(SVM)和神经网络模型，虽然应用了多种特征变换方案能够处理复杂的高维特征，在一定程度上提升了特征提取能力，但其不仅模型泛化能力较弱，而且识别过程中仅关注声谱图中的特征频率，而忽略了环境声音具有复杂的时间结构特征，如环境声音可以是短暂的(如枪声)、连续的(如下雨)或间歇的(如狗叫声)等，并不能简单地通过现有技术来有效模拟的问题，进而降低了模型的稳健性和分类精准性。

技术实现思路

[0004]本专利技术的目的是提供一种实时噪声大数据的声纹识别方法，通过设计一种基于时间结构域和频域的高区分度双重域学习网络来专注于语义相关、突出帧以及音频数据时间结构特征等内容，解决现有环境噪声数...

【技术保护点】

【技术特征摘要】
1.一种实时噪声大数据的声纹识别方法，其特征在于，所述方法包括以下步骤：获取环境噪声数据，并生成所述环境噪声数据的对数γ频谱图；将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果；所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。2.如权利要求1所述的实时噪声大数据的声纹识别方法，其特征在于，所述生成所述环境噪声数据的对数γ频谱图的步骤包括：将所述环境噪声数据进行短时傅立叶变换处理，得到对应的能量谱图；计算所述能量谱图的Delta信息，并采用γ型滤波器对所述能量谱图进行滤波处理，得到γ频谱图；将所述Delta信息和所述γ频谱图串联，得到所述对数γ频谱图。3.如权利要求1所述的实时噪声大数据的声纹识别方法，其特征在于，所述将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图的步骤包括：将所述对数γ频谱图按照预设时间间隔进行分割，得到若干个对数γ频谱分割图；将所述对数γ频谱分割图的分割时序作为第三维次数，并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列，得到所述三维对数γ频谱图。4.如权利要求3所述的实时噪声大数据的声纹识别方法，其特征在于，所述双重域特征提取模块包括并联的高区分度时间结构特征模块和高区分度频率特征模块；所述高区分度时间结构特征模块为门控循环单元网络；所述高区分度频率特征模块包括依次连接的输入层、反事实因果注意力学习层和输出层。5.如权利要求4所述的实时噪声大数据的声纹识别方法，其特征在于，所述反事实因果注意力学习层的损失函数表示为：式中，式中，式中，式中，式中，
其中，表示反事实因果注意力学习层的损失值；表示分类标签；和均表示交叉熵损失函数；表示的第i个分量；A表示反事实因果注意力学习层得到的注意力图；表示反事实因果注意力学习层基于反事实干预得到的注意力图；表示softmax分类器基于注意力图A的输出结果的第i个分量；表示softmax分类器基于注意力图的输出结果；表示因果推理干预；表示三维对数...

【专利技术属性】
技术研发人员：郑建辉，
申请(专利权)人：广州声博士声学技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人