当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于KL散度的音频特征提取方法技术

技术编号:19829026 阅读:67 留言:0更新日期:2018-12-19 17:04
本发明专利技术公开了一种基于KL散度的音频特征提取方法,包括:按类读取训练集中的音频文件,然后转化成对应的功率谱,计算得到训练集中不同声学场景的类间KL散度矩阵,划分KL滤波器的频率群,设计出KL滤波器;将训练集的功率谱通过KL滤波器,提取出基于类间KL散度的频谱特征;将KL频谱特征取对数并归一化后输入到卷积神经网络进行训练得到声学模型;读取测试集的音频文件,然后转化成对应的功率谱,通过KL滤波器提取出测试集对应的KL频谱特征;将测试集的KL频谱特征输入训练好的声学模型进行测试和评估,得到最终的声场景分类模型准确率。本发明专利技术应用到其他声场景分类事件中,可得到比传统的基于人耳的Mel特征提取方法更好的性能。

【技术实现步骤摘要】
一种基于KL散度的音频特征提取方法
本专利技术属于声学
,涉及一种音频特征提取方法,尤其涉及一种基于KL散度的声学场景分类的音频特征提取方法。
技术介绍
随着互联网和各种移动终端的快速发展,人们日常可以接触到的视频、音频信息呈爆发性增长。声音承载有关于我们日常环境和物理事件的大量信息。近年来,如何高效利用这些数量大且信息量丰富的音频数据,给我们生活提供更加便利的服务成为迫切需要。声场景分类(AcousticSceneClassification,ASC)的目标就是通过分析语音片段,判别出该语音所发生的场景,例如沙滩,公园,咖啡馆等。ASC是计算机听觉场景分析(ComputationalAuditorySceneAnalysis,CASA)领域的一种特定任务,它的目标是让计算机像人耳一样能够识别音频发生环境,进而达到感知和理解周边环境的目的。ASC的实现主要依靠信号处理技术和机器学习方法达到自动识别音频场景的目的。正是由于ASC可以感知和理解周边环境,因此目前已将它应用到移动终端和可穿戴设备上给人们提供个性化的定制服务。例如将ASC运用到机械轮椅上,轮椅会根据感知到所处环境在室内还是室外,自动切换两种服务模式;将ASC运用到智能手机设备上,手机会根据感知到使用者所处的环境,将一些设置进行转换,提供更好的用户体验;此外,还将ASC运用到军事刑侦等方面。ASC性能最后的好坏很大程度由训练模型所用数据集的规模以及提取到的特征所决定。ASC应用前景广泛,2013年起,为了评测现有的环境声音检测方法,电子和电气工程师学会音频和声学信号处理协会(InstituteofElectricalandElectronicsEngineersAudioandAcousticSignalProcess,IEEEAASP)开始举办声学场景和事件的检测与分类挑战赛(DetectionandClassificationofAcousticScenesandEvents,DCASE)。其中的任务一就是ASC。DCASE比赛已经分别于2013年、2016年和2017年举办。在DCASE2017的声学场景分类比赛的评测结果显示,前五名均采用了CNN模型。基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的深度学习方法已经取代传统的基于概率的学习模型成为主流方法。在ASC任务中,一般的方法是信号处理将音频文件转换成特征,然后进行模式匹配。目前在语音处理方面最为广泛使用的特征是基于梅尔滤波器下采样得到的梅尔谱图(MelFrequencySpectrogram,MFS)。但梅尔标度是基于人耳的感知特性设计,这种主观测度与声场景模式匹配特性是否契合也是值得研究的问题。传统的非深度学习的方法提取各种时域和频域特征,提升声场景分类的性能。如2002年,Peltonen等人提取过零率、帧短时平均能量等时域特征,子带能量比、谱中心、相邻帧谱变化测度和梅尔频率倒谱系数(Mel-frequencycepstralcoefficient,MFCC)等频域特征,用高斯混合模型(GaussianMixtureModel,GMM)和K近邻(k-nearestneighbor,KNN)分类器融合进行声场景识别。目前主流的基于CNN模型的深度学习方法,使用的特征包括基于梅尔测度的特征谱,常数Q变换(constant-Q-transform,CQT)谱图,或者直接用语谱图(Spectrogram)。梅尔测度特征谱包括对数梅尔能量谱(log-melenergies)和梅尔谱MFS,其中对数梅尔能量谱是梅尔谱幅度的平方取对数。在DCASE2017前5名参赛者中,除了第3名外,均采用了梅尔测度的特征。梅尔测度是基于人耳的感知特性的谱降维方法,通过主观实验确定谱分辨率的大小。人耳低频敏感,谱分辨率高;高频感知相对粗糙,谱分辨率渐次降低。DCASE2017第3名的参赛者ZhengWeiping等人实现了基于原始语谱图和CQT谱两种输入的CNN分类算法,CQT也是一种谱降维方法,谱分辨率由低频到高频渐次降低。与基于人耳感知特性的梅尔测度不同,CQT在谱降维时,设定频率和谱分辨率的比例为常数。CQT谱声场景分类的性能比原始语谱图低5%,可能因为CQT谱主要针对音乐信号的谐波特性而设计,而大多数声场景信号的谐波特性并不明显,CQT谱可以作为声场景分类算法的补充特征。DCASE2017第1名的参赛者SeongkyuMun等人实现了基于对数梅尔能量谱和原始语谱图两种输入的CNN分类算法,虽然降维后的梅尔能量谱的谱分辨率降低了6倍,但二者的分类准确率相当。在数据扩充后,对数梅尔能量谱的识别率甚至比原始语谱图高0.5%。由此可见,梅尔测度特征能够比较有效的对原始谱降维。梅尔测度谱在CNN模型的声场景分类算法中得到普遍应用,但梅尔测度谱是基于人耳感知特性,通过主观实验确定谱分辨率。这种基于感知谱降维提取的特征,很可能并非机器识别声场景分类的关键特征,或者说这种感知谱降维并非为声场景分类量身定制。Lulu等人在DCASE2017的比赛中提交了基于对数梅尔能量谱和基于声场景类间频域标准差的谱图像特征(AcrossScenesFrequencyStandardDeviationbasedSpectrogramImageFeature,ASFSTD-SIF)两种输入的CNN分类算法。ASFSTD-SIF是基于声场景类间标准差的谱降维方法,实际上是基于训练集的统计特性设计的谱降维方法,ASGFSD-SIF在评测集上的识别率比对数梅尔能量谱的方法高3.7%。这种为声场景分类设计的统计特征给本专利技术开拓了新思路,本专利技术希望寻找能够更好区分类间差异性的度量方法。上述ASFSTD的谱降维方法是根据频点数值的类间标准差确定其类间区分的重要性,但标准差对应的是数据集的离散程度,作为类间区分测度存在不足。SolomonKullback和RichardLeibler在信息论和动力系统里面引入相对熵,即Kullback-Leibler散度(简称KL散度,KLdivergence),KL散度是两个概率分布P和Q的一个非对称的度量,是量化两种概率分布差异性的方式。因此本专利技术拟引入KL散度,度量类间差异性,提出基于类间KL散度的谱降维方法,对声场景语谱图进行降维,提取基于KL散度的特征谱,以期更好的区分类间差异性,提升声场景分类的性能。
技术实现思路
本专利技术针对数据集的特点,充分挖掘实验数据集中的不同类别数据之间的差异性信息,提出了基于KL散度的音频特征提取方法,使得提取的KL散度统计特征比传统的Mel谱特征更加适用于场景分类问题。本专利技术所采用的技术方案是:一种基于KL散度的音频特征提取方法,其特征在于,包括以下步骤:步骤1:读取训练集中原始的音频文件,得到计算机能够处理的时域音频信号数据;步骤2:将步骤1得到的时域音频信号数据进行预处理;步骤3:对预处理后的时域音频信号转变为频域信号;步骤4:计算频域信号的功率谱;步骤5:将功率谱取对数,并将对数功率谱进行归一化处理,以此得到归一化对数功率谱;步骤6:利用步骤5得到的归一化对数功率谱设计KL滤波器;步骤7:将步骤4得到的功率谱通过KL滤波器本文档来自技高网
...

【技术保护点】
1.一种基于KL散度的音频特征提取方法,其特征在于,包括以下步骤:步骤1:读取训练集中原始的音频文件,得到计算机能够处理的时域音频信号数据;步骤2:将步骤1得到的时域音频信号数据进行预处理;步骤3:对预处理后的时域音频信号转变为频域信号;步骤4:计算频域信号的功率谱;步骤5:将功率谱取对数,并将对数功率谱进行归一化处理,以此得到归一化对数功率谱;步骤6:利用步骤5得到的归一化对数功率谱设计KL滤波器;步骤7:将步骤4得到的功率谱通过KL滤波器,得到KL谱特征;步骤8:对步骤7中求出来的KL谱特征取对数并归一化,得到归一化对数KL谱特征;步骤9:将步骤8中得到的归一化对数KL谱特征作为网络模型的输入,训练网络模型,验证评估结果;步骤10:对测试集也进行步骤1~4的操作,然后将步骤4得到的功率谱通过步骤6设计出来的KL滤波器,提取到测试集对应的KL谱特征;步骤11:将提取的测试集的KL谱特征归一化之后,输入到步骤9训练好的网络模型进行评估,得到在该数据集下的ASC分类结果。

【技术特征摘要】
1.一种基于KL散度的音频特征提取方法,其特征在于,包括以下步骤:步骤1:读取训练集中原始的音频文件,得到计算机能够处理的时域音频信号数据;步骤2:将步骤1得到的时域音频信号数据进行预处理;步骤3:对预处理后的时域音频信号转变为频域信号;步骤4:计算频域信号的功率谱;步骤5:将功率谱取对数,并将对数功率谱进行归一化处理,以此得到归一化对数功率谱;步骤6:利用步骤5得到的归一化对数功率谱设计KL滤波器;步骤7:将步骤4得到的功率谱通过KL滤波器,得到KL谱特征;步骤8:对步骤7中求出来的KL谱特征取对数并归一化,得到归一化对数KL谱特征;步骤9:将步骤8中得到的归一化对数KL谱特征作为网络模型的输入,训练网络模型,验证评估结果;步骤10:对测试集也进行步骤1~4的操作,然后将步骤4得到的功率谱通过步骤6设计出来的KL滤波器,提取到测试集对应的KL谱特征;步骤11:将提取的测试集的KL谱特征归一化之后,输入到步骤9训练好的网络模型进行评估,得到在该数据集下的ASC分类结果。2.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于,步骤2的具体实现包括以下子步骤:步骤2A.1:将时域音频信号数据x(n)通过一个高通滤波器H(z)=1-μz-1进行预加重处理;其中,μ是常数,表示预加重因子;步骤2A.2:将预加重后的信号进行分帧处理得到xi(m),其中下标i表示分帧后的第i帧;步骤2A.3:将分帧后的信号进行加窗处理。3.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于,步骤2的具体实现包括以下子步骤:步骤2B.1:将时域音频信号进行分帧处理得到xi(m),其中下标i表示分帧后的第i帧;步骤2B.2:将分帧后的信号进行加窗处理,即对每一...

【专利技术属性】
技术研发人员:杨玉红张会玉冯佳倩胡瑞敏艾浩军涂卫平王晓晨
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1