一种基于自编码器的工业场景异常声音检测与识别方法技术

技术编号：33086426 阅读：53 留言：0更新日期：2022-04-15 10:50

本发明专利技术提出了一种基于自编码器的工业场景异常声音检测与识别方法，该方法包括三个过程：声音特征的提取、工业场景声音建模和异常声音的检测与识别。工业场景的声音特征提取，预处理之后的每帧信号经互补集合经验模态分解，得到若干层固有模态函数(Intrinsic Mode Function,IMF)分量，将各层IMF分量的短时能量、IMF能量与该帧原始信号的能量比和IMF的梅尔倒谱系数取合集，构成目标声音信号的特征向量；用提取的特征向量训练自编码器，调整编码器和解码器的参数，得到正常场景声音模型和特定异常场景声音模型；异常声音检测与识别，将待测声音特征经过训练好的自编码器，通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。或某种已知异常声音。或某种已知异常声音。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自编码器的工业场景异常声音检测与识别方法

[0001]本专利技术涉及声音信号处理技术，具体涉及一种基于自编码器的工业场景异常声音检测与识别方法。

技术介绍

[0002]声音是一种重要的信息载体，其中蕴含着十分重要的信息。同时异常事件的发生往往会伴随着异常声音的产生，例如公共场景下的异常事件往往伴有爆炸声、尖叫声、玻璃爆炸声。同样在工业场景下，正常运行下的各种设备会产生规则的振动，其声音特征有一定的规律，一旦发生了机器损坏或其他异常事件，工业场景的声音特征将会发生改变，因此检测并识别声音信号中的异常声音对工业场景的安全监控具有重要作用。
[0003]目前，许多异常声音的识别采用梅尔倒谱系数(MFCC)、线性预测系数(LPC)、短时能量和短时平均过零率等时域和频域特征作为声音信息的特征。但异常声音具有高度的非平稳性和非线性，导致单一特征的提取会使最终的识别效率降低。因此对于声音特征的提取既需要结合提取的不同类型的特征，同时也需要突出各类特征的作用，这样才能使得提取的特征更适合于异常声音的检测与识别。
[0004]经验模态分解(Empirical Mode Decomposition，EMD)是一种自适应信号处理方法，它依据数据自身的时间尺度来进行信号分解，产生多个具有不同特征尺度的数据序列，从本质上对信号进行了平稳化处理，因此比较适合对非线性非平稳信号的处理。互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)是...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器的工业场景异常声音检测与识别方法，其特征在于：首先是对工业场景的声音进行预处理，包括预加重、分帧和加窗；然后每帧信号经互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition，CEEMD)，得到若干层IMF分量，计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的梅尔倒谱系数(Mel Frequency CepstrumCoefficients，MFCC)，并取三者的并集构成目标声音信号的特征向量；用提取的特征向量训练自编码器，对正常声音和已知异常声音的特征进行重建，利用梯度下降算法反向传播误差以调整网络参数，通过迭代微调逐步使重构误差函数达到最小值，以学习样本数据中的关键抽象特征，得到正常场景声音模型和特定异常场景声音模型；最后异常声音检测与识别，异常声音的特征经过训练好的异常检测自编码器后，无法很好的重建特征，会产生很大的重构误差，以此重构误差与误差阈值进行比较，再通过阈值条件判定待测声音是否为异常声音；同理异常声音的特征经过异常识别自编码器后，通过阈值条件判定待测声音是否为特定异常；所诉方法具体包括三个必要过程：声音特征提取、场景声音建模和异常声音检测与识别。(1)声音特征提取过程为：(1.1)对工业场景的正常声音和已知异常声音的样本进行预加重、分帧和加窗；(1.2)将每帧信号经CEEMD将其分解成若干层IMF分量；(1.3)计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC，并取三者的并集构成目标声音信号的特征向量。(2)工业场景声音建模过程为：(2.1)编码：编码器将输入特征向量X，转换为潜在特征Z；(2.2)解码：解码器将潜在特征Z，重构成输入特征向量X＇；(2.3)利用平方误差函数计算网络误差J(X，X
′
)；(2.4)利用梯度下降算法反向传播误差以调整网络参数，通过迭代微调逐步使重构误差函数达到最小值，以学习样本数据中的关键抽象特征，得到工业场景声音模型。(3)异常声音检测与识别过程为：(3.1)对待测声音进行预处理，并提取其特征向量；(3.2)将特征向量输入到训练好的异常检测自编码器或异常识别自编码器进行特征重构，得到重构误差分数；(3.3)通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。2.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法，其特征在于，预处理的过程为：(2.1)预加重：预加重技术的主要作用就是增强信号的高频成分，以补偿信号的高频分量在传输过程中的衰减。一般情况下常采用一阶FIR高通数字滤波器来对信号进行预加重处理，其传递函数为：H(z)＝1
‑
μz
‑1其中μ为预加重系数，0.9＜μ＜1.0。(2.2)分帧：语音信号具有短时平稳性，因此可以对异常声音信号进行分段处理，其中分开的每段称为一帧。分帧时一般采用重叠分段的方法，两帧重合的数据部分称为帧移。帧
移一般取帧长的1/4～1/2。(2.3)加窗：语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的，在语音领域，最常见的窗函数是利用余弦函数的汉宁窗(Hanning windows)和汉明窗(Hamming windows)。对于长度为N的离散信号x[n]，0≤n≤N
‑
1，这两种窗函数所对应的权重ω[n]可表示为：其中当α＝0....

【专利技术属性】
技术研发人员：罗文俊，邵鑫，陈自刚，陈龙，牟覃宇，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人