【技术实现步骤摘要】
一种基于双重数据增强策略的音频分类方法
本专利技术涉及信息处理
,特别是涉及一种基于双重数据增强策略的音频分类方法。
技术介绍
对音频进行分析可以得出人们进行活动、交流、周遭状况等方面的诸多信息。一般实现音频分类的方法分为两步,一是提取需要进行分类的不同音频的特征,通常使用一些基于手工制作的特征,如log-Mel特征,矩阵分解,字典学习、基于小波的特征以及梅尔倒谱系数;二是根据提取到的音频特征进行分析,然后训练分类器进行识别。其中,音频特征至关重要,表示效果不佳的音频特征将直接导致后续分类结果不佳。传统特征的表达能力不够强,不能很好的表示原始音频特征。为了获取表达能力更强的特征,可以使用神经网络对音频语谱图进行计算得到高层特征。但由于语谱图的特殊性,无法对其使用旋转、翻转、缩放等传统的图片数据增强方法,缺少对谱图进行数据增强的过程也将降低音频分类准确度。当前的主流做法是通过旋转、调音、加噪等方法直接进行音频数据增强,但是对于深度学习来说,这些数据往往还是不够,特别是一些数据集的样本数过低但标签类别数量大的数据集 ...
【技术保护点】
1.一种基于双重数据增强策略的音频分类方法,其特征在于,包括如下步骤:/nS1、对待处理音频数据使用音频旋转、音频调音、音频变调和音频加噪四种方法产生新的数据,实现数据增强;/nS2、对完成数据增强的音频数据进行频谱分析,得到音频文件对应的语谱图数据;/nS3、对语谱图数据使用随机替换均值方法产生新的语谱图数据,实现语谱图的数据增强;/nS4、通过神经网络模型对增强后的语谱图数据进行特征提取,得到表示能力更强的高层特征;/nS5、训练随机森林分类器对音频数据完成分类。/n
【技术特征摘要】
1.一种基于双重数据增强策略的音频分类方法,其特征在于,包括如下步骤:
S1、对待处理音频数据使用音频旋转、音频调音、音频变调和音频加噪四种方法产生新的数据,实现数据增强;
S2、对完成数据增强的音频数据进行频谱分析,得到音频文件对应的语谱图数据;
S3、对语谱图数据使用随机替换均值方法产生新的语谱图数据,实现语谱图的数据增强;
S4、通过神经网络模型对增强后的语谱图数据进行特征提取,得到表示能力更强的高层特征;
S5、训练随机森林分类器对音频数据完成分类。
2.如权利要求1所述的基于双重数据增强策略的音频分类方法,其特征在于,步骤S1具体包括:
S11、音频旋转:将音频文件后30%的数据截取至音频文件的首部进行拼接,生成一组新数据;
S12、音频调音:将音频数据的音量分别进行增大为1.5倍和减小为0.7倍处理,生成两组新数据;
S13、音频变调:将音频数据的音调分别进行增大为2倍和减小为0.5倍处理,生成两组新数据;
S14、音频加噪:重复两次在音频数据中加入随机的噪音数据,生成两组新数据。
3.如权利要求2所述的基于双重数据增强策略的音频分类方法,其特征在于,步骤S2具体包括:
S21、将音频数据按照时间分成多帧,以每一帧为一个观测单位,每帧的时长为25ms,每隔10ms取一帧,即帧移为10ms,此时帧的重叠为15ms;
S22、对每一帧加窗,使帧内信号在接下来进行傅里叶变换时的两个端点处不会发生突变;
S23、对分帧加窗后的各帧信号进行1024点的FFT变换得到各帧的频谱,对频谱数据取模平方得到语音信号的功率谱;
S24、将所述功率谱通过76个三角带通滤波器构成的梅尔滤波器组;
S25、对梅尔滤波器组的输出求取对数,在提取到每一帧的对数能量后,以帧的形式层叠起来,得到最终的语谱图。
4.如...
【专利技术属性】
技术研发人员:张晓龙,周迅,边小勇,李波,何新宇,甘浩旻,
申请(专利权)人:武汉科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。