一种基于辅助分类深度神经网络的主乐器识别方法技术

技术编号:24097434 阅读:28 留言:0更新日期:2020-05-09 11:06
本发明专利技术提供一种基于辅助分类深度神经网络的主乐器识别方法,在分类网络训练时对具体乐器类别进行主分类的同时,对乐器组按照起振类型进行辅助分类。从乐器角度来看,乐器组提供乐器的相似性信息,有助于网络学习出更有分辨力的特征。从反向传播角度来看,构建多任务学习网络结构,即使主分类中激活函数的梯度消失,辅助分类的梯度仍然存在,防止陷入局部最优,从而确保网络继续进行学习,使得网络在训练过程中得到更优的参数,帮助网络对乐器进行更精确的分类。另外,在网络设计损失函数时引入中心损失,减小类内间距,可更一步提升乐器识别效果。

A main instrument recognition method based on auxiliary classification depth neural network

【技术实现步骤摘要】
一种基于辅助分类深度神经网络的主乐器识别方法
本专利技术涉及深度学习、音乐信息检索技术,特别涉及针对复调音乐中的主乐器识别技术。技术背景由于数字格式的音乐文件越来越多,人们对音乐搜索的需求也越来越大。在音乐信息检索MIR领域,人们往往希望知道音乐演奏使用的是什么乐器。如果能将乐器信息包含在音频标签中,人们就可以用他们关注的特定乐器类别搜索音乐。同时,乐器为描述音频内容提供了有效的手段。准确的乐器识别可以为许多与音乐信息相关的任务带来好处,例如,它可以用于定制特定的音频均衡和音乐推荐服务,还可用于提高MIR其他任务的性能,例如,了解乐器的数量和类型可以显著提高声源分离、自动音乐转录和分类的性能。复调音乐中多种乐器在一段音频中同时占主导地位时,人们可以很容易地识别出其中的乐器,然而对于计算机来说,从音质、演奏风格都有很大差异的复调音乐中识别出乐器并不是一件简单的事情。研究者们使用能够表征音色的特征,或者将多种类型的特征进行融合后输入分类器进行乐器识别,识别性能取决于输入特征对音色的表达能力以及分类器对特征的辨别能力,因此这两个方面是目前乐器识别问题中的研究重点。
技术实现思路
本专利技术所要解决的技术问题是,提供一种通过乐器组的辅助分类训练来增强网络对乐器类别的主分类识别效果的方法。本专利技术为解决上述技术问题所采用的技术方案是,一种基于辅助分类深度神经网络的主乐器识别方法,包括以下步骤:1)数据预处理:1-1)对各音频数据进行预处理与贴标签处理后形成数据集;标签包括各种乐器类型和人声;1-2)将数据集中各音频数据分为训练集与测试集;1-3)再对将训练集中各音频数据按起振类型进行辅助分类,起振类型包括硬起振组、软起振组和人声,对训练集中各音频数据进行辅助分类标签贴标;硬起振类型的乐器的起振点能量变化突然、强烈,软起振类型的乐器的起振点能量平稳;2)数据特征提取:对数据集中的各音频数据进行音频特征提取,构造各音频数据的特征向量;3)基于辅助分类的主乐器识别网络设置,包括4个卷积块,每个卷积块由一组卷积层-批归一化层-卷积层-批归一化层-池化层组成;卷积块依次连接,每个卷积块中卷积滤波器的数目分别为32、64、128和256,最后一个卷积块输出通过全局最大池化层和全连接层后输入至分类层,分类层包含两个用于2个分类任务的输出分支,一个分支为主分类的乐器类型分类,另一个分支为辅助分类的起振类型分类;设置网络训练时所使用的总损失函数Loss为:Loss=LPB+μLAB+λLPC,其中LPB代表主分类的二分类交叉熵损失,LAB代表辅助分类的二分类交叉熵损失,μ表示LAB和LPB的比重参数,LPC代表主分类的中心损失,λ为LPC和LPB之间的比重参数;4)训练步骤:将提取了特征向量的训练集输入至基于辅助分类的主乐器识别网络中完成网络训练;5)测试步骤:将提取了特征向量的测试集输入至训练好的基于辅助分类的主乐器识别网络中,输出的主分类的分类结果为音频中主乐器识别结果。本专利技术通过将乐器按照起振类型进行分组,在对具体乐器类别进行主分类的同时,对乐器组进行辅助分类,辅助分类能使得网络在训练过程中得到更优的参数。本专利技术的有益效果是,在训练时按起振类型进行辅助分类,从反向传播角度来看,构建多任务学习网络结构,即使主分类中激活函数的梯度消失,辅助分类的梯度仍然存在,防止陷入局部最优,从而确保网络继续进行学习,帮助网络对乐器进行更精确的分类。另外,在网络设计损失函数时引入中心损失,减小类内间距,可更一步提升乐器识别效果。附图说明图1为实施例流程;图2为1秒内10种乐器音乐信号能量变化;图3为本专利技术的网络结构图;图4为乐器侧识别效果;图5为本专利技术与ConvNet识别结果对比。具体实施方式实施例使用IRMAS数据集。IRMAS数据集包含音乐音频摘录和音频主乐器的注释,音乐涵盖众多不同风格、演奏者、乐器类型等,同时录音片段跨度几十年,在音质上有很大差异。数据集分为训练和测试数据,所有音频文件为16位立体声,采样率为44100Hz。涉及10种乐器及人声,分别为:大提琴(cel),单簧管(cla),长笛(flu),原声吉他(gac),电声吉他(gel),风琴(org),钢琴(pia),萨克斯(sax),小号(tru),小提琴(vio)及人声(voi)。实施流程如图1所示:1)数据预处理:1-1)对原始的立体声音频做左右声道平均转换成单声道,将音频降采样至22050Hz,11025Hz的奈奎斯特频率足以覆盖乐器产生的大部分谐波同时过滤掉该频率以上的噪声。将音频按1秒帧长进行切割,每段分割使用相同的标签。完成预处理与贴标签处理后形成数据集;标签包括10种乐器类型和人声;1-2)将数据集中各音频数据分为训练集与测试集;训练集进一步分为验证集与训练集,测试集进一步分为开发集与纯测试集;1-3)再对将训练集中各音频数据按起振类型进行辅助分类,起振类型包括硬起振组、软起振组和人声,对训练集中各音频数据进行辅助分类标签贴标;硬起振类型的乐器的起振点能量变化突然、强烈,软起振类型的乐器的起振点能量平稳、软上升;起振点能量的显著变化使硬起振仪器的识别更加容易。我们从IRMAS数据集10种乐器的训练数据中随机选取爵士风格演奏音乐片段。音乐信号的能量变化如图2所示。(a)-(d)中大部分起振时刻均有显著峰值,(e)-(j)中平均起振强度相对较弱。这与起振类型吻合。2)数据特征提取:对数据集中的各音频数据依次提取过零率、频谱质心、RMS能量包络、谱滚降、mel频谱和MFCC,将这七种特征相连接,构造特征向量:A、过零率:音乐信号波形的符号变化次数,是从信号直接计算得到的时域特征。该特征已广泛应用于语音识别和音乐信息检索领域:其中N为帧内样本的个数,Fn为第N个样本的振幅。sign()为符号函数。B、频谱质心:表征声音信号频率和能量分布的重要信息,当频谱质心增大时,音乐的高频分量增多。通过计算频谱重心得到:其中fk是第k个频率。K是频率盒的数量。P(fk)是第k个频率上的谱幅度值。C、RMS能量包络:音频帧随时间的能量分布,能够有效表征人耳听觉系统对音频信号强度变化的感知:D、谱滚降:定义幅值下降至频谱总能量的PR%所对应的临界频率:E、带宽:谱幅加权平均频率范围:F、mel频谱:输入音频数据在mel-scale频率上的幅度谱图。Melscale是一种基于人类听觉感知的非线性频率标度。将普通频率转换为mel-频率的公式如下:G、MFCC:在自动语音识别中广泛使用的一种特征。在梅尔频率上得到的倒谱系数称为梅尔频率倒谱系数,简称为MFCC。3)基于辅助分类的主乐器识别网络设置,如图3所示,包括4个卷积块,每个卷积块由一组卷积层-批归一化层-卷积层-批归一本文档来自技高网...

【技术保护点】
1.一种基于辅助分类深度神经网络的主乐器识别方法,其特征在于,包括以下步骤:/n1)数据预处理:/n1-1)对各音频数据进行预处理与贴标签处理后形成数据集;标签包括各种乐器类型和人声;/n1-2)将数据集中各音频数据分为训练集与测试集;/n1-3)再对将训练集中各音频数据按起振类型进行辅助分类,起振类型包括硬起振组、软起振组和人声,对训练集中各音频数据进行辅助分类标签贴标;硬起振类型的乐器的起振点能量变化突然、强烈,软起振类型的乐器的起振点能量平稳;/n2)数据特征提取:对数据集中的各音频数据进行音频特征提取,构造各音频数据的特征向量;/n3)基于辅助分类的主乐器识别网络设置,包括4个卷积块,每个卷积块由一组卷积层-批归一化层-卷积层-批归一化层-池化层组成;卷积块依次连接,每个卷积块中卷积滤波器的数目分别为32、64、128和256,最后一个卷积块输出通过全局最大池化层和全连接层后输入至分类层,分类层包含两个用于2个分类任务的输出分支,一个分支为主分类的乐器类型分类,另一个分支为辅助分类的起振类型分类;设置网络训练时所使用的总损失函数Loss为:Loss=L

【技术特征摘要】
1.一种基于辅助分类深度神经网络的主乐器识别方法,其特征在于,包括以下步骤:
1)数据预处理:
1-1)对各音频数据进行预处理与贴标签处理后形成数据集;标签包括各种乐器类型和人声;
1-2)将数据集中各音频数据分为训练集与测试集;
1-3)再对将训练集中各音频数据按起振类型进行辅助分类,起振类型包括硬起振组、软起振组和人声,对训练集中各音频数据进行辅助分类标签贴标;硬起振类型的乐器的起振点能量变化突然、强烈,软起振类型的乐器的起振点能量平稳;
2)数据特征提取:对数据集中的各音频数据进行音频特征提取,构造各音频数据的特征向量;
3)基于辅助分类的主乐器识别网络设置,包括4个卷积块,每个卷积块由一组卷积层-批归一化层-卷积层-批归一化层-池化层组成;卷积块依次连接,每个卷积块中卷积滤波器的数目分别为32、64、128和256,最后一个卷积块输出通过全局最大池化层和全连接层后输入至分类层,分类层包含两个用于2个分类任务的输出分支,一个分支为主分类的乐器类型分类,另一个分支为辅助分类的起振类型分类;设置网络训练时所使用的总损失函数Loss为:Loss=LPB+μLAB+λLPC,其中LPB代表主分类的二分类交叉熵损失,LAB代表辅助分类的二分类交叉熵损失,μ表示LAB和LPB的比重参数,LPC代表主分类的中心损失,λ为LPC和LPB之间的比重参数;
4)训练步骤:将提取了特征向量的训练集输入至基于辅助分类的主乐器...

【专利技术属性】
技术研发人员:段惠萍俞冬妍方俊曾兵
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1