当前位置: 首页 > 专利查询>福州大学专利>正文

基于二值多频带能量分布的低信噪比声音事件检测方法技术

技术编号:23364280 阅读:37 留言:0更新日期:2020-02-18 17:50
本发明专利技术提出一种基于二值多频带能量分布的低信噪比声音事件检测方法,利用二值多频带能量分布(Binary Multi‑Band Power Distribution,BMBPD)和随机森林(RF)的独特组合来提供优良的性能。其中,BMBPD将MBPD图中灰度小于一定阈值的像素二值化为1,其余为0,能够在MBPD图中突出与声音事件相关的像素,同时抑制噪声的影响,从而减少低信噪比环境中噪声对待测声音事件的影响。通过对BMBPD图分块离散余弦变换(DCT),把DCT系数的Z编码的主要部分作为声音事件的特征,即BMBPD‑DCTZ,并用随机森林(RF)分类器对BMBPD‑DCTZ进行训练与检测。该方法对声级适用范围广泛,在严重的非平稳噪声中具有较强的鲁棒性。

A low SNR sound event detection method based on binary multi band energy distribution

【技术实现步骤摘要】
基于二值多频带能量分布的低信噪比声音事件检测方法
本专利技术属于声音事件检测(Soundeventdetection,SED)领域,尤其涉及一种基于二值多频带能量分布的低信噪比声音事件检测方法。
技术介绍
声音事件检测(Soundeventdetection,SED)是将一个短的声音片段的音频内容分配到一组预先训练类之一中的任务。近20年来,声音事件检测的研究一直是声学分析领域的研究热点。声音事件检测已应用于声学监测,生物声学监测,环境声音,情境感知辅助机器人,音乐流派分类和多媒体存档等领域。当前,对于声音事件的分类与检测的研究,可以归纳为特征表示、基于深度学习的声音事件分类与检测、和多音声音事件检测等三个方面。关于特征表示,主要包括音频特征常规表示(R.Grzeszick,A.Plinge,andG.A.Fink,“Bag-of-featuresmethodsforacousticeventdetectionandclassification,”IEEE/ACMTrans.Audio,Speech,Lang.Process.,vol.25,no.6,pp.1242-1252,Jun.2017)、深度神经网络提取的深度音频特征(Y.Li,X.Zhang,H.Jin,X.Li,Q.Wang,Q.He,andQ.Huang,“Usingmulti-streamhierarchicaldeepneuralnetworktoextractdeepaudiofeatureforacousticeventdetection,”MultimedToolsAppl.,vol.77,pp.897–916,2018)、左奇异矢量提取的声谱图特征(Manjunath.MandS.G.Koolagudi,“Segmentationandcharacterizationofacousticeventspectrogramsusingsingularvaluedecomposition,”ExpertSystemsAppl.,vol.120,pp.413-425,2019)、非线性时间归一化表示(I.M.Morato,M.Cobos,andF.J.Ferri,“AdaptiveMid-Termrepresentationsforrobustaudioeventclassification,”IEEE/ACMTrans.Audio,Speech,Lang.Process.,vol.26,no.12,pp.2381-2392,Dec.2018)等。关于深度学习的声音事件检测,包括基于深度学习的声音事件分类与检测(X.Xia,R.Togneri,F.Sohel,andD.Huang,“Auxiliaryclassifiergenerativeadversarialnetworkwithsoftlabelsinimbalancedacousticeventdetection,”IEEETrans.Multimedia,vol.21,no.6,pp.1359-1371,Jun.2019),大规模音频标注(Q.Kong,Y.Xu,W.Wang,andM.D.Plumbley,“Audiosetclassificationwithattentionmodel:aprobabilisticperspective,”inProc.IEEEInt.Conf.Acoust.,Speech,SignalProcess.,2018,pp.316-320)、异常声音事件检测(Y.Koizumi,S.Saito,H.Uematsu,Y.Kawachi,andN.Harada,“Unsuperviseddetectionofanomaloussoundbasedondeeplearningandtheneyman–pearsonlemma,”IEEE/ACMTrans.Audio,Speech,Lang.Process.,vol.27,no.1,pp.212-224,Jan.2019)、弱标记声音事件检测(B.McFee,J.Salamon,andJ.P.Bello,“Adaptivepoolingoperatorsforweaklylabeledsoundeventdetection,”IEEE/ACMTrans.Audio,Speech,Lang.Process.,vol.26,no.11,pp.2180-2193,Nov.2018;Q.Kong,Y.Xu,I.Sobieraj,W.Wang,andM.D.Plumbley,“Soundeventdetectionandtime-frequencysegmentationfromweaklylabelleddata,”IEEE/ACMTrans.Audio,Speech,Lang.Process.,vol.27,no.4,pp.777-778,Apr.2019)等。关于多音声音事件检测,则主要包括用于多音声音事件检测的卷积神经网络(E.Cakir,G.Parascandolo,T.Heittola,H.Huttunen,T.Virtanen,Convolutionalrecurrentneuralnetworksforpolyphonicsoundeventdetection,”IEEE/ACMTrans.Audio,Speech,Lang.Process.,vol.25,no.6,pp.1291-1303,Jun.2017)、利用线性动力系统的复音事件跟踪(E.Benetos,G.Lafay,M.Lagrange,andM.D.Plumbley,“Polyphonicsoundeventtrackingusinglineardynamicalsystems,”IEEE/ACMTrans.Audio,Speech,Lang.Process.,vol.25,no.6,pp.1266-1267,Jun.2017)和基于谱图的多任务音频分类(Y.Zeng,H.Mao,Hua;andD.Peng,“Spectrogrambasedmulti-taskaudioclassification,”MultimedToolsAppl.,vol.78,2019,pp3705–3722)。上述研究表明,对于特定声音场景,如果信噪比合适,可以一定程度地分类与检测出相关的声音事件。然而,在许多这样的应用中,声音事件发生在各种各样的具有挑战性的噪声条件下,并且信噪比(signal-to-noiseratio,SNR)甚至可能接近-10分贝(Z.Feng,Q.Zhou,J.Zhang,andP.Jiang,“Atargetguidedsubbandfilterforacousticeventdetectioninnoisyenvironmentsusingwaveletpackets,”IEEETrans.Audio,Speech,Lang.Process.,vol.23,no.2,pp361-372,Feb.2015)。低信噪比声音事件检测的目标是检测与识别复杂声本文档来自技高网...

【技术保护点】
1.一种基于二值多频带能量分布的低信噪比声音事件检测方法,其特征在于,包括以下步骤:/n步骤S1:将声音信号y(t)通过gammatone滤波器组滤波,得到y

【技术特征摘要】
1.一种基于二值多频带能量分布的低信噪比声音事件检测方法,其特征在于,包括以下步骤:
步骤S1:将声音信号y(t)通过gammatone滤波器组滤波,得到yf[t];对yf[t]取对数,形成相应的gammatone谱图Sg(f,t);
步骤S2:对每个声音信号的能量谱进行归一化处理,得到归一化后的能量谱G(f,t);
步骤S3:对G(f,t)的多频带能量分布情况进行统计,得到MBPD图M(f,b);
步骤S4:对MBPD图M(f,b)进行二值化处理得到BMBPD图MR(f,b);
步骤S5:对BMBPD图MR(f,b)进行分块,并对子块进行DCT;
步骤S6:对DCT系数进行Zigzag扫描,获得DCT系数的1维排列,取前m个DCT系数作为BMBPD-DCTZ;
步骤S7:采用BMBPD-DCTZ作为特征,以RF作为分类器,对BMBPD-DCTZ进行分类和/或识别。


2.根据权利要求1所述的基于二值多频带能量分布的低信噪比声音事件检测方法,其特征在于:
在步骤S1中,
Sg(f,t)=lg|yf[t]|(1);
其中,f表示gammatone滤波器的中心频率,t表示帧索引;
在步骤S2中,





3.根据权利要求2所述的基于二值多频带能量分布的低信噪比声音事件检测方法,其特征在于:
在步骤S3中,设G(f,t)共有B个能量等级,采用基于统计的非参数法,对每个频率子带f的能量元素进行概率密度统计,得到各个频率子带的各个能量等级的概率分布M(f,b):






其中,W为声音信号的帧数,M(f,b)...

【专利技术属性】
技术研发人员:李应吴灵菲王庆池哲坚
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1