【技术实现步骤摘要】
一种音频分类方法和装置
本申请涉及深度学习领域技术,尤其涉及一种音频分类方法和装置。
技术介绍
音频分类(AudioClassification)是指识别音频数据中是否包含某类音频事件,如狗叫、鸣笛等。目前的音频分类方案中,需要手动提取音频数据的音频特征,如对数梅尔顿频谱图,并将该手动提取的音频特征作为输入进行音频分类。实践发现,上述音频分类方案中,无法实现端到端的音频分类,即无法直接以原始音频数据(原始波形信号(RawWaveform))作为输入实现音频分类,其音频分类操作较为繁琐,实现效率较低。
技术实现思路
有鉴于此,本申请提供一种音频分类方法和装置。具体地,本申请是通过如下技术方案实现的:根据本申请实施例的第一方面,提供一种音频分类方法,包括:将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。根据本申请实施例的第二方面,提供一种音频分类装置,包括:第一特征提取单元,用于将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;转换单元,用于将所述类频谱特征转换为二维音频特征; ...
【技术保护点】
1.一种音频分类方法,其特征在于,包括:/n将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;/n将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;/n将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。/n
【技术特征摘要】
1.一种音频分类方法,其特征在于,包括:
将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;
将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;
将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。
2.根据权利要求1所述的方法,其特征在于,级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络通过以下方式训练得到:
对于训练集中的任一训练样本,将其输入所述第一特征提取网络,以得到该训练样本的类频谱特征;
将该训练样本的类频谱特征转换为二维音频特征输入到所述第二特征提取网络,以得到该训练样本的网络深度特征;
将该训练样本的网络深度特征输入所述分类网络,以得到该训练样本的分类结果。
3.根据权利要求2所述的方法,其特征在于,所述将该训练样本的网络深度特征输入所述分类网络之后,还包括:
根据所述音频分类网络模型的分类准确率,对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化,直至所述音频分类网络模型的分类准确率满足预设条件。
4.根据权利要求3所述的方法,其特征在于,所述对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化,包括:
对所述第一特征提取网络、所述第二特征提取网络和/或所述分类网络的模型参数进行优化。
5.根据权利要求3所述的方法,其特征在于,所述音频分类网络模型的分类准确率满足预设条件,包括:
所述音频分类网络模型的分类准确率大于预设准确率阈值。
6.根据权利要求1所述的方法,其特征在于,所述将所述类频谱特征转换为二维音频特征,包括:
对所述类频谱特征进行通道转换,以得到二维音频特征。
7.根据权利要求1所述的方法,其特征在于,所述第二特征提取网络为包含多尺度预测模型的2DResNet-50,所述原始音频数据的网络深度特征包括多个时间尺度的网络深度特征;
所述将原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络,以得到原始音频数据的分类结果,包括:
将所述多个时间尺度的网络深度特征分别输入到所述分类网络中对应的全连接层,以分别得到各时间尺度的分类结果;
根据各时间尺度的分类结果确定...
【专利技术属性】
技术研发人员:郝婧,陈家旭,孙海鸣,谢迪,浦世亮,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。