当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度学习的声音异常检测系统技术方案

技术编号:20078085 阅读:22 留言:0更新日期:2019-01-15 01:33
一种基于深度学习的声音异常检测系统,包括声音特征提取模块、深度学习分类模块和检测结果后处理模块;声音特征提取模块处理获取的原始声音数据得到相应的音频特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达;深度学习分类模块与声音特征提取模块连接,对原始声音数据进行标注,深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成深度学习异常检测模型后,将声音特征提取模块生成的短时间声音特征输入深度学习异常检测模型进行分类;检测结果后处理模块与深度学习分类模块连接,检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。

A Sound Anomaly Detection System Based on Deep Learning

A sound anomaly detection system based on in-depth learning includes sound feature extraction module, in-depth learning classification module and post-processing module of detection results; in-depth learning classification module processes the original sound data acquired and obtains the corresponding audio features, combines the voice features of several very short time sound segments to obtain short-time voice feature expression; and in-depth learning classification module and voice detection module. The feature extraction module is connected to annotate the original sound data, and the deep learning classification module trains the annotated sound data to get the deep learning anomaly detection model; after generating the deep learning anomaly detection model, the short-time sound features generated by the sound feature extraction module are input into the deep learning anomaly detection model for classification; the post-processing module and the depth of the test results are classified. The learning classification module is connected, and the post-processing module encapsulates the output of the deep learning classification module. The short-time sound detection results are combined to predict the long-time anomaly detection results.

【技术实现步骤摘要】
一种基于深度学习的声音异常检测系统
本专利技术涉及声音异常检测领域,具体的,涉及一种基于深度学习的声音异常检测系统。
技术介绍
变电站内设备运行过程中会出现各种各样的声音,可能是运行状态下发出的正常声音,也可能是设备在故障情况下发出的异常声音。电力巡检人员在经过专门的培训后,能够根据设备发出的不同声音判断设备的正常或异常情况。然而,要求电力巡检人员全天24小时对所有的变电站点进行监控是不现实的,而间歇性的巡检无法实时、有效地检测到变电站的异常情况。与此同时,技术的进步推动着变电站监管向自动化、智能化发展。针对这一现象,需要利用智能技术代替人工来检测识别变电站的异常情况。
技术实现思路
本专利技术提供了一种基于深度学习的声音异常检测系统,通过深度学习方法有效地监控变电站声音,判断异常情况。本专利技术采用以下技术方案。一种基于深度学习的声音异常检测系统,所述系统包括声音特征提取模块、深度学习分类模块和检测结果后处理模块;所述声音特征提取模块处理获取的原始声音数据得到相应的音频特征,通过滑动窗口获取极短时间声音片段对应的语音特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达;所述深度学习分类模块与所述声音特征提取模块连接,对所述原始声音数据进行标注,所述深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成所述深度学习异常检测模型后,将所述声音特征提取模块生成的短时间声音特征输入所述深度学习异常检测模型进行分类,做出声音正常或声音异常分类判断;所述检测结果后处理模块与所述深度学习分类模块连接,所述检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。优选的,所述通过滑动窗口获取极短时间声音片段对应的语音特征进一步包括,利用所述滑动窗口所述原始声音数据的极短时间声音片段,对所述极短时间声音片段进行短时傅里叶变换得到极短时间声音片段的高维频谱特征,对所述高维频谱特征经过梅尔频率倒谱分析获取梅尔频率倒谱系数MFCC,计算所述梅尔频率倒谱系数MFCC的差值得到第一差值ΔMFCC,计算所述第一差值ΔMFCC的差值得到第二差值Δ2MFCC,将所述梅尔频率倒谱系数MFCC、第一差值ΔMFCC和第二差值Δ2MFCC组合得到极短时间声音片段对应的语音特征表达。优选的,所述滑动窗口的长度为100ms,所述滑动窗口移动的步进为25ms。优选的,所述极短时间声音片段的时长为100ms,所述短时间声音的时长为1.325s。优选的,所述深度学习分类模块采用全连接网络训练模型对标注后的声音数据进行训练。优选的,所述全连接网络为3层全连接网络。本专利技术的有益效果是:一方面,通过自动化的声音异常检测技术,24小时全天候智能监控变电站的异常情况,及时、有效地对变电站情况作出反馈和预警,同时也减少了电力巡检人员的整体工作量。另一方面,在音频特征表示部分,本专利技术通过短时傅里叶变换得到极短时间的高维频谱特征,经过梅尔(Mel)频率倒谱分析获取梅尔频率倒谱系数(MFCC),进一步可以获取MFCC的差值ΔMFCC,以及ΔMFCC的差值Δ2MFCC,三者合并得到极短时间对应的语音特征表达,在保证音频特征表达性的同时,降低了极短时间语音特征的维度,使得极短时间对应的语音特征数据量大大降低,并且因此降低了后续深度学习分类模块的计算量。附图说明图1是本专利技术中短时间声音特征获取示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于深度学习的声音异常检测系统,包括声音特征提取模块、深度学习分类模块和检测结果后处理模块。声音特征提取模块处理获取的原始声音数据得到相应的音频特征,通过滑动窗口获取极短时间声音片段对应的语音特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达。声音特征提取模块,提取模块通过语音信号分析得到输入声音的特征表达,获得表示短时间声音的整体特征。深度学习分类模块与声音特征提取模块连接,对原始声音数据进行标注,深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成深度学习异常检测模型后,将声音特征提取模块生成的短时间声音特征输入深度学习异常检测模型进行分类,做出声音正常或声音异常分类判断。深度学习分类模块利用预先标注好的声音数据进行分类训练,储存训练好的模型以便调用,供声音的异常识别检测使用。检测结果后处理模块与深度学习分类模块连接,检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。变电站按照固定的较长时间提供现场获取的音频。如1分钟存储一次音频,并传送给声音异常检测系统进行识别。声音特征提取部分,以滑动窗口方式得到极短声音片段,经过短时傅里叶变换、梅尔频率倒谱分析、合并得到极短时间的梅尔倒谱系数(MFCC)表达,通过多个极短时间MFCC语音特征表达组合得到短时间的语音特征。对获取的较长时间声音数据,如1分钟的声音数据,首先采用滑动窗口方式得到极短声音片段的语音特征,如图1所示,具体而言,通过短时傅里叶变换得到极短时间的高维频谱特征,经过梅尔(Mel)频率倒谱分析获取梅尔频率倒谱系数(MFCC),进一步可以获取MFCC的差值ΔMFCC,以及ΔMFCC的差值Δ2MFCC,三者合并得到极短时间对应的语音特征表达。如可设定短时傅里叶变换的窗长为2048,则得到极短时间的高维频谱为1025维,MFCC、ΔMFCC和Δ2MFCC均为13维的,将其组合则得到极短时间对应的语音特征为39维的,无论是与原始音频数据或是与之前1025维的高维频谱特征相比,本专利技术中获取的极短时间对应的语音特征数据量都大大降低,并且因此降低了后续深度学习分类模块的计算量。之后通过多个极短时间语音特征的组合融合,得到短时间的语音特征。对于每个传送到检测系统的较长时间声音数据,可以提取得到多个短时间的音频特征作为样本,输入至深度神经网络中分别得到对应的异常检测结果。如可设定极短时间为100毫秒(ms),滑动窗口每次移动25毫秒(ms),50个极短时间组合得到短时间(25ms*50)-25ms+100ms=1.325秒(s)对应的音频特征,最终1分钟(min)的较长时间音频可得到约60s/1.325s≈45个短时间声音样本。对当前已采集的多处变电站数据进行正常或异常的标注,标注内容包括每个较长时间的音频对应标注一个正常或异常的标签(1表示正常,0表示异常),将音频和其对应的标签存储,以备后续深度学习分类模型的训练使用。深度学习分类模块,采用了包含3层全连接层的深度神经网络,加入丢弃(dropout)以及批标准化(BatchNormalization)以提高深度学习模型的整体拟合和泛化能力,模型输出结果为输入语音特征对应的正常或异常概率值,在0~1范围内,输出值接近1表示短时间语音为正常的概率较大,而输出值接近0表示短时间语音为异常的概率较大。训练过程使用预先标注好的音频数据,输入数据经过声音特征本文档来自技高网...

【技术保护点】
1.一种基于深度学习的声音异常检测系统,其特征在于,所述系统包括声音特征提取模块、深度学习分类模块和检测结果后处理模块;所述声音特征提取模块处理获取的原始声音数据得到相应的音频特征,通过滑动窗口获取极短时间声音片段对应的语音特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达;所述深度学习分类模块与所述声音特征提取模块连接,对所述原始声音数据进行标注,所述深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成所述深度学习异常检测模型后,将所述声音特征提取模块生成的短时间声音特征输入所述深度学习异常检测模型进行分类,做出声音正常或声音异常分类判断;所述检测结果后处理模块与所述深度学习分类模块连接,所述检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。

【技术特征摘要】
1.一种基于深度学习的声音异常检测系统,其特征在于,所述系统包括声音特征提取模块、深度学习分类模块和检测结果后处理模块;所述声音特征提取模块处理获取的原始声音数据得到相应的音频特征,通过滑动窗口获取极短时间声音片段对应的语音特征,组合多个极短时间声音片段语音特征获取短时间声音特征表达;所述深度学习分类模块与所述声音特征提取模块连接,对所述原始声音数据进行标注,所述深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型;生成所述深度学习异常检测模型后,将所述声音特征提取模块生成的短时间声音特征输入所述深度学习异常检测模型进行分类,做出声音正常或声音异常分类判断;所述检测结果后处理模块与所述深度学习分类模块连接,所述检测结果后处理模块对深度学习分类模块输出的结果进行封装,将短时间声音的检测结果组合共同预测较长时间的异常检测结果。2.根据权利要求1所述的一种基于深度学习的声音异常检测系统,其特征在于,所述通过滑动窗口获取极短时间声音片段对应的语音特征进一步包括,利用所述滑动窗口所述原始声音数据的极短时间...

【专利技术属性】
技术研发人员:刘勇李雅纯
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1