一种基于自编码器的工业场景异常声音检测与识别方法技术

技术编号:33086426 阅读:53 留言:0更新日期:2022-04-15 10:50
本发明专利技术提出了一种基于自编码器的工业场景异常声音检测与识别方法,该方法包括三个过程:声音特征的提取、工业场景声音建模和异常声音的检测与识别。工业场景的声音特征提取,预处理之后的每帧信号经互补集合经验模态分解,得到若干层固有模态函数(Intrinsic Mode Function,IMF)分量,将各层IMF分量的短时能量、IMF能量与该帧原始信号的能量比和IMF的梅尔倒谱系数取合集,构成目标声音信号的特征向量;用提取的特征向量训练自编码器,调整编码器和解码器的参数,得到正常场景声音模型和特定异常场景声音模型;异常声音检测与识别,将待测声音特征经过训练好的自编码器,通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。或某种已知异常声音。或某种已知异常声音。

【技术实现步骤摘要】
一种基于自编码器的工业场景异常声音检测与识别方法


[0001]本专利技术涉及声音信号处理技术,具体涉及一种基于自编码器的工业场景异常声音检测与识别方法。

技术介绍

[0002]声音是一种重要的信息载体,其中蕴含着十分重要的信息。同时异常事件的发生往往会伴随着异常声音的产生,例如公共场景下的异常事件往往伴有爆炸声、尖叫声、玻璃爆炸声。同样在工业场景下,正常运行下的各种设备会产生规则的振动,其声音特征有一定的规律,一旦发生了机器损坏或其他异常事件,工业场景的声音特征将会发生改变,因此检测并识别声音信号中的异常声音对工业场景的安全监控具有重要作用。
[0003]目前,许多异常声音的识别采用梅尔倒谱系数(MFCC)、线性预测系数(LPC)、短时能量和短时平均过零率等时域和频域特征作为声音信息的特征。但异常声音具有高度的非平稳性和非线性,导致单一特征的提取会使最终的识别效率降低。因此对于声音特征的提取既需要结合提取的不同类型的特征,同时也需要突出各类特征的作用,这样才能使得提取的特征更适合于异常声音的检测与识别。
[0004]经验模态分解(Empirical Mode Decomposition,EMD)是一种自适应信号处理方法,它依据数据自身的时间尺度来进行信号分解,产生多个具有不同特征尺度的数据序列,从本质上对信号进行了平稳化处理,因此比较适合对非线性非平稳信号的处理。互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)是EMD的一种改进算法,能够有效的降低模态混叠,还可以一定程度提高计算速度,并且将IMF进行重构,重构信号与初始信号差别更小,说明其分解效果更好。
[0005]自编码器是一种典型的无监督深度学习模型,旨在通过将网络的期望输出(声音特征的重构输出)等同于输入样本(声音特征的输入),实现对输入样本的抽象特征学习。

技术实现思路

[0006]本专利技术提出一种基于自编码器的工业场景异常声音的检测与识别方法和系统,有效的提高了工业场景下异常声音检测的泛化性和已知异常声音识别的准确性。
[0007]本专利技术的目的在于填补针对工业场景异常声音检测与识别领域的空缺并改进现有技术的不足,采用互补集合经验模态分解声音信号,综合不同类型的声音特征并突出各类特征的作用,来训练不同类别的自编码器,构建工业场景声音模型,通过训练完成的自编码器来实现对异常的检测和已知异常的识别。
[0008]本专利技术方案具体包括工业场景声音特征提取、工业场景声音建模和异常声音检测与识别三个部分。
[0009]声音特征的提取过程为:
[0010]对训练数据中工业场景的正常声音样本和已知异常声音样本进行预加重、分帧和加窗。
[0011]将每帧信号经CEEMD将其分解成若干层IMF分量。
[0012]计算每一层IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC,并取三者的并集构成目标声音信号的特征向量。
[0013]工业场景声音建模过程为:
[0014]将提取的特征向量输入自编码器;
[0015]编码:编码器将输入特征向量X,转换为潜在特征Z;
[0016]解码:解码器将潜在特征Z,重构成输入特征向量X';
[0017]利用平方误差函数计算网络误差J(X,X

);
[0018]利用梯度下降算法反向传播误差以调整网络参数训练自编码器,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到工业场景声音模型。
[0019]异常声音检测与识别过程为:
[0020]对待测声音进行预处理,并提取其特征向量;
[0021]将特征向量输入到训练好的异常检测自编码器或异常识别自编码器进行特征重构,得到重构误差分数;
[0022]通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。
[0023]本专利技术的优点在于:(1)对于声音特征的提取,将CEEMD算法和短时能量、能量比、MFCC相结合,即综合了不同特征的特点,又突出各类特征的作用,有利于异常声音的检测与识别。(2)采用无监督的自编码器学习样本数据中的关键抽象特征,具有很强的特征表示能力,并且网络结构相对简单、容易训练。
附图说明
[0024]图1本专利技术方案的整体框图;
[0025]图2本专利技术方案工业场景声音特征的提取流程图;
[0026]图3本专利技术方案异常检测自编码器与异常识别自编码器的训练的流程图;
具体实施方式
[0027]下面结合附图,详细描述本专利技术的技术方案。
[0028]图1为本专利技术方案的整体框图,具体涉及一种基于自编码器的工业场景异常声音检测与识别方法及系统。该方法针对工业场景下的声音信号,首先是对工业场景的声音进行预处理,包括预加重、分帧和加窗;然后每帧信号经CEEMD将其分解成若干层IMF分量,计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC,并取三者的并集构成目标声音信号的特征向量;用提取的特征向量训练自编码器,对正常声音和已知异常声音的特征进行重建,利用梯度下降算法反向传播误差以调整网络参数,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到工业场景声音模型;最后异常声音检测与识别,异常声音的特征经过训练好的自编码器后,无法很好的重建特征,会产生很大的重构误差,以此重构误差与误差阈值进行比较,再通过阈值条件判定待测声音是否为异常声音;同理异常声音的特征经过异常识别自编码器后,通过阈值条件判定待测声音是否为某种已知异常。
[0029]本专利技术方案主要包括工业场景声音特征提取、工业场景声音建模和异常声音检测与识别三个模块。
[0030]图2是本专利技术方案中的工业场景声音特征提取流程图,具体步骤为:
[0031]步骤1、输入一帧待提取的目标信号,信号长度为N;
[0032]步骤2、计算该帧信号的能量E;
[0033]步骤3、初始化重复次数Q;
[0034]步骤4、对初始信号s(t)加入一对幅值相同,相位相反的随机白噪声
±
w
q
(t)(q=1,2...Q)得到H
q
(t)和J
q
(t),即:
[0035][0036]步骤5、计算H
q
(t)和J
q
(t)的所有极值点,利用三次样条插值法将所有极大值和极小值点连接起来,形成H
q
(t)和J
q
(t)上包络线u
H
(t)、u
J
(t)和下包络线v
H
(t)、v
J
(t),将上下包络线相加求平均值,得到信号的平均包络线m
H
(t)、m
J
(t)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器的工业场景异常声音检测与识别方法,其特征在于:首先是对工业场景的声音进行预处理,包括预加重、分帧和加窗;然后每帧信号经互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD),得到若干层IMF分量,计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的梅尔倒谱系数(Mel Frequency CepstrumCoefficients,MFCC),并取三者的并集构成目标声音信号的特征向量;用提取的特征向量训练自编码器,对正常声音和已知异常声音的特征进行重建,利用梯度下降算法反向传播误差以调整网络参数,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到正常场景声音模型和特定异常场景声音模型;最后异常声音检测与识别,异常声音的特征经过训练好的异常检测自编码器后,无法很好的重建特征,会产生很大的重构误差,以此重构误差与误差阈值进行比较,再通过阈值条件判定待测声音是否为异常声音;同理异常声音的特征经过异常识别自编码器后,通过阈值条件判定待测声音是否为特定异常;所诉方法具体包括三个必要过程:声音特征提取、场景声音建模和异常声音检测与识别。(1)声音特征提取过程为:(1.1)对工业场景的正常声音和已知异常声音的样本进行预加重、分帧和加窗;(1.2)将每帧信号经CEEMD将其分解成若干层IMF分量;(1.3)计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC,并取三者的并集构成目标声音信号的特征向量。(2)工业场景声音建模过程为:(2.1)编码:编码器将输入特征向量X,转换为潜在特征Z;(2.2)解码:解码器将潜在特征Z,重构成输入特征向量X';(2.3)利用平方误差函数计算网络误差J(X,X

);(2.4)利用梯度下降算法反向传播误差以调整网络参数,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到工业场景声音模型。(3)异常声音检测与识别过程为:(3.1)对待测声音进行预处理,并提取其特征向量;(3.2)将特征向量输入到训练好的异常检测自编码器或异常识别自编码器进行特征重构,得到重构误差分数;(3.3)通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。2.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法,其特征在于,预处理的过程为:(2.1)预加重:预加重技术的主要作用就是增强信号的高频成分,以补偿信号的高频分量在传输过程中的衰减。一般情况下常采用一阶FIR高通数字滤波器来对信号进行预加重处理,其传递函数为:H(z)=1

μz
‑1其中μ为预加重系数,0.9<μ<1.0。(2.2)分帧:语音信号具有短时平稳性,因此可以对异常声音信号进行分段处理,其中分开的每段称为一帧。分帧时一般采用重叠分段的方法,两帧重合的数据部分称为帧移。帧
移一般取帧长的1/4~1/2。(2.3)加窗:语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的,在语音领域,最常见的窗函数是利用余弦函数的汉宁窗(Hanning windows)和汉明窗(Hamming windows)。对于长度为N的离散信号x[n],0≤n≤N

1,这两种窗函数所对应的权重ω[n]可表示为:其中当α=0....

【专利技术属性】
技术研发人员:罗文俊邵鑫陈自刚陈龙牟覃宇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1