一种基于特征预训练的深度学习分类的声音数据分类方法技术

技术编号:31504885 阅读:31 留言:0更新日期:2021-12-22 23:34
本发明专利技术涉及一种基于特征预训练的深度学习分类的声音数据分类方法,包括:获取P通道的声音数据,按帧长L将所述P通道的声音数据截取为若干段声音样本,每段所述声音样本包括帧长为L的P通道声音样本数据和截取数据的分类类别;对所述帧长为L的P通道声音样本数据进行K倍降采样,得到L/K个点的P通道声音样本;按帧长L提取所述P通道的声音数据的MFCC特征;构建卷积神经网络,通过所述若干段声音样本和P通道的声音数据的MFCC特征来对所述卷积神经网络进行两次训练,得到训练好的卷积神经网络;通过训练好的卷积神经网络来识别输入声音信号的类别。本发明专利技术的卷积神经网络能够对输入的声音信号类别进行有效分类。声音信号类别进行有效分类。声音信号类别进行有效分类。

【技术实现步骤摘要】
一种基于特征预训练的深度学习分类的声音数据分类方法


[0001]本专利技术涉及语音信号识别
,特别是涉及一种基于特征预训练的深度学习分类的声音数据分类方法。

技术介绍

[0002]根据P通道均匀圆阵采集的车辆声音数据来对野外车辆目标进行识别,传统的模式识别一般分为两个步骤:首先提取声音传感器采集到的声信号的特征;其次设计分类器以得到判别结果。常用的声信号特征为梅尔倒谱系数(Mel

Frequency Cepstral Coefficient,MFCC),被广泛用于语种识别、说话人识别、声纹识别等领域,近年来被成功应用于车辆目标的分类识别。
[0003]传统的将MFCC特征送入深度学习网络,但是在恶劣的环境中模型的识别率并不高。
[0004]传统的识别模式在野外车辆识别时,若是风噪过大,其分类结果有限,并不能达到预期的效果,随着深度学习的快速发展,考虑用深度学习来进行分类识别,但深度学习需要大量的数据,而工程上数据有限,因此需要构建合理的数据集,并且该数据集能够使得后期训练好的网络有较为准确的识别率。...

【技术保护点】

【技术特征摘要】
1.一种基于特征预训练的深度学习分类的声音数据分类方法,其特征在于,包括:步骤(1):获取P通道的声音数据,按帧长L将所述P通道的声音数据截取为若干段声音样本,每段所述声音样本包括帧长为L的P通道声音样本数据和截取数据的分类类别;对所述帧长为L的P通道声音样本数据进行K倍降采样,得到L/K个点的P通道声音样本;步骤(2):按帧长L提取所述P通道的声音数据的MFCC特征;步骤(3):构建卷积神经网络,通过所述若干段声音样本和P通道的声音数据的MFCC特征来对所述卷积神经网络进行两次训练,得到训练好的卷积神经网络;步骤(4):通过训练好的卷积神经网络来识别输入声音信号的类别。2.根据权利要求1所述的基于特征预训练的深度学习分类的声音数据分类方法,其特征在于,所述步骤(2)具体为:对所述P通道的声音数据进行预处理,再按帧长L同时提取预处理后的P通道的声音数据的MFCC特征;其中,所述预处理包括预加重、分帧和加窗。3.根据权利要求1所述的基于特征预训练的深度学习分类的声音数据分类方法,其特征在于,所述步骤(3)中的卷积神经网络包括M层卷积层、第一全连接层和第二全连接层;所述第一全连接层的输入为所述截取的L/K个点的P通道声音样本数据,并将所述P通道的声音数据的MFCC特征作为标签,输出为P通道乘以MFCC特征维数;所述第二全连接层的输入为截取的L/K个点的P通道声音样本数据,并将所述截取数据的分类类别作为标签,...

【专利技术属性】
技术研发人员:王艳候丹丹龚杰李宝清袁晓兵
申请(专利权)人:中国科学院上海微系统与信息技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1