一种可学习参数的声谱图生成的方法及其系统技术方案

技术编号:35452576 阅读:52 留言:0更新日期:2022-11-03 12:08
本发明专利技术公开了一种可学习参数的声谱图生成的方法及其系统,本发明专利技术可学习参数的声谱图生成的方法包括:将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图;所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块。本发明专利技术通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图,能学习最适合噪声的音阶并进行处理,能够去除多余的杂质,得到更为突出噪声特征的声谱图,为后续的声纹识别或语音识别任务提供更丰富的特征,大大提高准确率。大大提高准确率。大大提高准确率。

【技术实现步骤摘要】
一种可学习参数的声谱图生成的方法及其系统


[0001]本专利技术涉及音频前处理技术,具体涉及一种可学习参数的声谱图生成的方法及其系统。

技术介绍

[0002]音频滤波器组可以模拟人类对于声音的感知,通过音频滤波器组生成声谱图是后续声纹识别必要的处理环节。传统生成声谱图通常使用梅尔滤波器组(Mel

filterbanks)和MFCC(Mel频率倒谱系数)这两种方式。例如,使用梅尔滤波器组方法包括首先是通过加窗将噪声信号切割成固定持续时间的片段,将加窗之后的每一个片段通过固定频率滤波器组进行滤波处理,再将音频信号进行压缩,最后再进行傅里叶变换生成声谱图。但是传统的Mel

filterbanks和MFCC等生成声谱图的方式对于声音的低频范围更加敏感,对于噪声信号作用有限,导致在进行噪声分类时产生较多误判。

技术实现思路

[0003]本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种可学习参数的声谱图生成的方法及其系统,本专利技术通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图,能学习最适合噪声的音阶并进行处理,能够去除多余的杂质,得到更为突出噪声特征的声谱图,为后续的声纹识别或语音识别任务提供更丰富的特征,大大提高准确率。
[0004]为了解决上述技术问题,本专利技术采用的技术方案为:
[0005]一种可学习参数的声谱图生成的方法,包括:
[0006]S1,将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;
[0007]S2,利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图。
[0008]作为本专利技术的进一步改进:
[0009]所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块,所述滤波层为通过一组非线性的带通滤波器在原始的采样频率下进行,所述池化层用于提取噪声信号来降低时间分辨率,所述压缩/归一化模块用于通过信号压缩或归一化以降低噪声信号的动态范围。
[0010]所述滤波层包括依次相连的Gabor一维卷积模块和激活模块。
[0011]所述池化层为高斯低通池化模块。
[0012]所述压缩/归一化模块的函数表达式为:
[0013][0014]上式中,PCEN(F(t,n))表示压缩/归一化模块当前时刻t的输出,F(t,n)为当前时刻t的池化层输出的时频表示的噪声信号的原始音频数据,ε为接近0的常数,α
n
、δ
n
以及r
n

为可学习的参数,当前时刻t的中间变量M(t,n)的函数表达式为:
[0015]M(t,n)=(1

a)M(t

1,n)+aF(t,n),
[0016]上式中,a为超参数,M(t

1,n)为上一时刻t

1的中间变量。
[0017]步骤S1之前还包括将噪声音频数据进行预处理的步骤,所述预处理包括重置采样率为16k、将声道统一成单声道、固定音频时长中的至少一种。
[0018]步骤S1之前还包括训练卷积神经网络以学习到最适合噪声的音阶:
[0019]S101,采集噪声信号样本的音频数据;
[0020]S102,将噪声信号样本的音频数据进行数据增强,再进行预处理;
[0021]S103,基于预处理后得到的噪声信号样本的音频数据建立训练样本集;
[0022]S104,根据训练样本集训练卷积神经网络,在完成指定数量次训练或者在卷积神经网络的测试精度满足要求后判定训练完成。
[0023]步骤S102将噪声信号样本的音频数据进行数据增强包括对原始音频进行速度改变、添加噪声、混响、增加数据量中的部分或全部。
[0024]此外,本专利技术还提供一种可学习参数的声谱图生成的系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述可学习参数的声谱图生成的方法的步骤。
[0025]此外,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述可学习参数的声谱图生成的方法的步骤。
[0026]和现有技术相比,本专利技术主要具有下述优点:
[0027]1、本专利技术可学习参数的声谱图生成的方法包括:将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图;本专利技术通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图,能学习最适合噪声的音阶并进行处理,能够去除多余的杂质,得到更为突出噪声特征的声谱图,为后续的声纹识别或语音识别任务提供更丰富的特征,大大提高准确率。
[0028]2、本专利技术可学习参数的声谱图生成的方法可搭配任意一个小型分类器,只需要增加少量的参数即可实现噪声的分类,在实时性与准确率上有着很大的优势。
附图说明
[0029]图1为本专利技术实施例方法的基本流程示意图。
[0030]图2为本专利技术实施例中卷积神经网络的结构示意图。
[0031]图3为本专利技术实施例中卷积神经网络的具体实现示意图。
[0032]图4为作为对比的Mel

filterbanks方法生成的声谱图。
[0033]图5为本专利技术实施例方法生成的声谱图。
具体实施方式
[0034]如图1所示,本实施例可学习参数的声谱图生成的方法包括:
[0035]S1,将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;
[0036]S2,利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图。
[0037]如图2所示,本实施例中卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块,滤波层为通过一组非线性的带通滤波器在原始的采样频率下进行,池化层用于提取噪声信号来降低时间分辨率,压缩/归一化模块用于通过信号压缩或归一化以降低噪声信号的动态范围。
[0038]如图3所示,本实施例中滤波层包括依次相连的Gabor一维卷积模块和激活模块。其中,Gabor一维卷积模块(Gabor 1D

convolution)为现有的卷积神经网络模块,其为对Gabor滤波器的改良,通过使用对Gabor滤波器改良后的Gabor一维卷积模块,每一个Gabor一维卷积模块中只有2个参数,而改良前的参数数量为改良后的200倍。激活模块为现有的卷积神经网络模块,本实施例中的激活模块具体采用ReLU激活函数(线性整流函数)。Gabor滤波器是用正弦信号调制高斯核产生的,其是由其中心频率η
n
和反向带宽σ
n
决定,函数表达式如下:
[0039][0040]上式中,为Gabor滤波器的输出,N为频率中心的数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可学习参数的声谱图生成的方法,其特征在于,包括:S1,将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;S2,利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图。2.根据权利要求1所述的可学习参数的声谱图生成的方法,其特征在于,所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块,所述滤波层为通过一组非线性的带通滤波器在原始的采样频率下进行,所述池化层用于提取噪声信号来降低时间分辨率,所述压缩/归一化模块用于通过信号压缩或归一化以降低噪声信号的动态范围。3.根据权利要求2所述的可学习参数的声谱图生成的方法,其特征在于,所述滤波层包括依次相连的Gabor一维卷积模块和激活模块。4.根据权利要求2所述的可学习参数的声谱图生成的方法,其特征在于,所述池化层为高斯低通池化模块。5.根据权利要求2所述的可学习参数的声谱图生成的方法,其特征在于,所述压缩/归一化模块的函数表达式为:上式中,PCEN(F(t,n))表示压缩/归一化模块当前时刻t的输出,F(t,n)为当前时刻t的池化层输出的时频表示的噪声信号的原始音频数据,ε为接近0的常数,α
n
、δ
n
以及r
n
均为可学习的参数,当前时刻t的中间变量M(t,n)的函数表达式为:M(t,n)=(1

a)M(t

1,n)+aF(t,n),上式中,a为超参...

【专利技术属性】
技术研发人员:袁文怡陈炳辉王弘越严柏浩
申请(专利权)人:广州伏羲智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1