一种可学习参数的声谱图生成的方法及其系统技术方案

技术编号：35452576 阅读：52 留言：0更新日期：2022-11-03 12:08

本发明专利技术公开了一种可学习参数的声谱图生成的方法及其系统，本发明专利技术可学习参数的声谱图生成的方法包括：将噪声信号的原始音频数据输入预先完成训练的卷积神经网络；利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图；所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块。本发明专利技术通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图，能学习最适合噪声的音阶并进行处理，能够去除多余的杂质，得到更为突出噪声特征的声谱图，为后续的声纹识别或语音识别任务提供更丰富的特征，大大提高准确率。大大提高准确率。大大提高准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种可学习参数的声谱图生成的方法及其系统

[0001]本专利技术涉及音频前处理技术，具体涉及一种可学习参数的声谱图生成的方法及其系统。

技术介绍

[0002]音频滤波器组可以模拟人类对于声音的感知，通过音频滤波器组生成声谱图是后续声纹识别必要的处理环节。传统生成声谱图通常使用梅尔滤波器组(Mel
‑
filterbanks)和MFCC(Mel频率倒谱系数)这两种方式。例如，使用梅尔滤波器组方法包括首先是通过加窗将噪声信号切割成固定持续时间的片段，将加窗之后的每一个片段通过固定频率滤波器组进行滤波处理，再将音频信号进行压缩，最后再进行傅里叶变换生成声谱图。但是传统的Mel
‑
filterbanks和MFCC等生成声谱图的方式对于声音的低频范围更加敏感，对于噪声信号作用有限，导致在进行噪声分类时产生较多误判。

技术实现思路

[0003]本专利技术要解决的技术问题：针对现有技术的上述问题，提供一种可学习参数的声谱图生成的方法及其系统，本专利技术通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图，能学习最适合噪声的音阶并进行处理，能够去除多余的杂质，得到更为突出噪声特征的声谱图，为后续的声纹识别或语音识别任务提供更丰富的特征，大大提高准确率。
[0004]为了解决上述技术问题，本专利技术采用的技术方案为：
[0005]一种可学习参数的声谱图生成的方法，包括：
[0006]S1，将噪声信号的原始音频数据输入预先完成...

【技术保护点】

【技术特征摘要】
1.一种可学习参数的声谱图生成的方法，其特征在于，包括：S1，将噪声信号的原始音频数据输入预先完成训练的卷积神经网络；S2，利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图。2.根据权利要求1所述的可学习参数的声谱图生成的方法，其特征在于，所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块，所述滤波层为通过一组非线性的带通滤波器在原始的采样频率下进行，所述池化层用于提取噪声信号来降低时间分辨率，所述压缩/归一化模块用于通过信号压缩或归一化以降低噪声信号的动态范围。3.根据权利要求2所述的可学习参数的声谱图生成的方法，其特征在于，所述滤波层包括依次相连的Gabor一维卷积模块和激活模块。4.根据权利要求2所述的可学习参数的声谱图生成的方法，其特征在于，所述池化层为高斯低通池化模块。5.根据权利要求2所述的可学习参数的声谱图生成的方法，其特征在于，所述压缩/归一化模块的函数表达式为：上式中，PCEN(F(t,n))表示压缩/归一化模块当前时刻t的输出，F(t,n)为当前时刻t的池化层输出的时频表示的噪声信号的原始音频数据，ε为接近0的常数，α
n
、δ
n
以及r
n
均为可学习的参数，当前时刻t的中间变量M(t,n)的函数表达式为：M(t,n)＝(1
‑
a)M(t
‑
1,n)+aF(t,n)，上式中，a为超参...

【专利技术属性】
技术研发人员：袁文怡，陈炳辉，王弘越，严柏浩，
申请(专利权)人：广州伏羲智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人