一种基于mel能量谱和卷积神经网络的声音故障识别方法技术

技术编号:20822528 阅读:20 留言:0更新日期:2019-04-10 06:38
本发明专利技术公开了一种基于mel能量谱和卷积神经网络的声音故障识别方法,首先将初始输入的音频数据进行预加重,之后需要对数据进行分帧、加窗处理,然后要对分帧、加窗后的音频信号进行快速傅里叶变换,提取频域上的能量特征之后,将能量谱通过一组Mel尺度的三角形滤波器组,之后对每一帧对应不同频域的能量作为Y轴,时域上不同帧作为X轴,将数据转换为梅尔能量谱图。此后,需要进一步对能量谱图进行分帧,以适应CNN(卷积神经网络)的输入,每一帧为一个样本,每个样本对应的标签的独热编码作为CNN网络的输出,对CNN网络模型进行训练,直到网络训练误差达到最低。在预测时,输出每一类标签的概率值,取概率值最大的标签作为最终的判别结果。

【技术实现步骤摘要】
一种基于mel能量谱和卷积神经网络的声音故障识别方法
本专利技术AI声音故障检测识别领域,更具体地,涉及一种基于mel能量谱和卷积神经网络的声音故障识别方法。
技术介绍
大型空调冷却设备在现实应用中已经相当普及,对于其发生故障的检测,大多采用了人工检测的方式。专业的工作人员进行巡视检查的方法,可以凭借工作人员的感官和感觉,检查设备的外观、震动、运行声音等,以此来判定设备是否发生破损、松动等异常。这种方式简单方便,但是得到的信息十分有限,且工作人员的知识技能、经验以及观察能力差异化较大,巡视的结果也难以让人满意。
技术实现思路
本专利技术的目的是解决现有技术中工作人员判别差异大、信息传达速度慢以及检测成本高的缺陷,提出一种基于mel能量谱和卷积神经网络的声音故障识别方法。为实现以上专利技术目的,采用的技术方案是:一种基于mel能量谱和卷积神经网络的声音故障识别方法,其特征在于,包括以下步骤:S1:对语音信号进行预加重,增加声音的高频分辨率;S2:对语音信号进行分帧处理,通过将N个语音信号上的采样点组合为一个观测单位即为为帧,两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值为N的1/2或1/3;S3:对语音信号进行加窗处理,通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征,其中窗函数为:n=0,1…,N-1,N为帧的大小;S4:乘上汉明窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:式中x(n)为输入的语音信号,N表示傅里叶变换的点数;S5:将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M;M取22-26,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;三角滤波器的频率响应定义为:式中:f(m)为中心频率,k为频率;S6:计算每个滤波器组输出的对数能量:m=0,1…,M,M为滤波器个数,Hm(k)为滤波器的频率响应;S7:转换为梅尔能量谱图;步骤S2的分帧是在采样点上进行的,对N个采样点作为一帧进行之后步骤的一系列操作后,最终每一帧提取M个频段的梅尔能量谱作为Y轴的M个值,而X轴以帧数作为单位,由此得到一张梅尔能量谱图;S8:以梅尔能量谱图的X轴的N个坐标单位长度为一帧的长度,以Y轴所有数据作为一帧的宽度,对梅尔能量谱图进行分帧。等同于将一个梅尔能量谱他按照X轴切为多个分段,其中每一段作为一个样本,作为下一阶段卷积神经网络的输入。此步骤的分帧步长,和分帧长度相等,即相邻两帧没有重叠的部分;S9:搭建CNN网络;其中包含了5个2维卷积层,3个全连接层,2个最大池化层,此外为了缓解过拟合,设置了3层dropout;而在第一层卷积层后,增加了一层batch_normalization以加快收敛速度;CNN网络最后一层使用softmax激活函数:其中,j=1,…,K,K为分类的最大类别;,z为网络最后一层输出;S10:把进一步分帧的梅尔能量谱图,一帧作为一个样本,以16个样本为一个包(batch),放入CNN网络的输入进行训练,以样本对应的标签的独热编码为输出,采用BP算法进行迭代优化,不断更新CNN网络的参数,使得输出的预测误差达到最小;当继续训练不能使得验证集的数据误差降低的时候,停止算法优化;S11:将前向传播的结果和真实输出值计算交叉熵误差(Cross-entropy),具体计算公式为:其中N为类别数量,为模型输出值,y为真实值,L为损失函数;S12:根据链式求导法则,计算各层神经元的梯度项,使得误差减小;S13:根据计算出的梯度项,采用Momentum优化方法更新各层神经元参数;S14:重复步骤S10到步骤S13,直到误差达到指定最小值,或者超出循环次数epoch跳出循环;S15:将经过预处理的数据,放入CNN网络进行前向传播,取最后一层输出概率最大的类别,作为最终的判定结果。优选的是,步骤S1所述预加重一阶FIR高通滤波器实现,采用的传递函数为H(z)=1-az^-1,其中a为预加重系数。优选的是,步骤S2所述N个语音信号中N的值为256或512。与现有技术相比,本专利技术的有益效果是:1)节约人力,大大减少值班人员在强噪声环境下的工作时间,即改善了工作条件,又使企业达到国家有关噪声卫生标准;2)声音故障识别算法可分性强、稳定性高,在外界的客观条件发生变化时有良好的适应性;3)对于检测的结果可以及时的介入管理信息系统,通知对应的维修人员进行及时的修理,大大缩短了维修的反应时间,降低进一步发生故障的可能性。具体实施方式以下结合实施例对本专利技术做进一步的阐述。实施例1一种基于mel能量谱和卷积神经网络的声音故障识别方法,包括以下步骤:S1:对语音信号进行预加重,增加声音的高频分辨率;对语音信号进行预加重,从而增加声音的高频分辨率。预加重一般传递函数为H(z)=1-az^-1。本专利技术使用一阶FIR高通滤波器实现预加重,其中a为预加重系数,设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-ax(n-1),这里取a=0.95。S2:对语音信号进行分帧处理,在时序上,每间隔一定的时间截取一部分音频数据为一帧,而间隔的时间则为分帧的步长。由于声音信号具有短时平稳特性,对音频进行分帧有助于进一步细分声音的特性。通过将N个语音信号上的采样点组合为一个观测单位即为为帧,N的值为256或512,涵盖的时间约为20~30ms,相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值为N的1/2或1/3;通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。S3:对语音信号进行加窗处理,加窗之后是为了进行傅里叶展开,加窗的目的是为了使全局更加连续,避免出现吉布斯效应;此外,加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征,其中窗函数为:n=0,1…,N-1,N为帧的大小;不同的a值会产生不同的汉明窗,一般情况下a取0.46。S4:乘上汉明窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:式中x(n)为输入的语音信号,N表示傅里叶变换的点数;由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。S5:将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M;M取22-26,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;三角滤波器的频率响应定义为:式中:f(m)为中心频率,k为频率;三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。S6:计算每个滤波器组输出本文档来自技高网...

【技术保护点】
1.一种基于mel能量谱和卷积神经网络的声音故障识别方法,其特征在于,包括以下步骤:S1:对语音信号进行预加重,增加声音的高频分辨率;S2:对语音信号进行分帧处理,通过将N个语音信号上的采样点组合为一个观测单位即为帧,两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值为N的1/2或1/3;S3:对语音信号进行加窗处理,通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征,其中窗函数为:

【技术特征摘要】
1.一种基于mel能量谱和卷积神经网络的声音故障识别方法,其特征在于,包括以下步骤:S1:对语音信号进行预加重,增加声音的高频分辨率;S2:对语音信号进行分帧处理,通过将N个语音信号上的采样点组合为一个观测单位即为帧,两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值为N的1/2或1/3;S3:对语音信号进行加窗处理,通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征,其中窗函数为:n=0,1…,N-1,N为帧的大小,a为窗函数大小系数;S4:乘上汉明窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:式中x(n)为输入的语音信号,N表示傅里叶变换的点数;S5:将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M;M取22-26,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;三角滤波器的频率响应定义为:式中:f(m)为中心频率,k为频率;S6:计算每个滤波器组输出的对数能量:m=0,1…,M,M为滤波器个数,Hm(k)为滤波器的频率响应;S7:转换为梅尔能量谱图;步骤S2的分帧是在采样点上进行的,对N个采样点作为一帧进行之后步骤的一系列操作后,最终每一帧提取M个频段的梅尔能量谱作为Y轴的M个值,而X轴以帧数作为单位,由此得到一张梅尔能量谱图;S8:以梅尔能量谱图的X轴的N个坐标单位长度为一帧的长度,以Y轴所有数据作为一帧的宽度,对梅尔能量谱图进行分帧,等同于将一个梅尔能量谱他按照X轴切为多个分段,其中每一段作为一个样本,作为下一阶段卷积神经网络的输入。此步骤的分帧步...

【专利技术属性】
技术研发人员:陈曦蓝志坚陈卓李学辉喻春霞容伯杰
申请(专利权)人:广州丰石科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1