一种基于辅助分类深度神经网络的主乐器识别方法技术

技术编号：24097434 阅读：28 留言：0更新日期：2020-05-09 11:06

本发明专利技术提供一种基于辅助分类深度神经网络的主乐器识别方法，在分类网络训练时对具体乐器类别进行主分类的同时，对乐器组按照起振类型进行辅助分类。从乐器角度来看，乐器组提供乐器的相似性信息，有助于网络学习出更有分辨力的特征。从反向传播角度来看，构建多任务学习网络结构，即使主分类中激活函数的梯度消失，辅助分类的梯度仍然存在，防止陷入局部最优，从而确保网络继续进行学习，使得网络在训练过程中得到更优的参数，帮助网络对乐器进行更精确的分类。另外，在网络设计损失函数时引入中心损失，减小类内间距，可更一步提升乐器识别效果。

A main instrument recognition method based on auxiliary classification depth neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于辅助分类深度神经网络的主乐器识别方法
本专利技术涉及深度学习、音乐信息检索技术，特别涉及针对复调音乐中的主乐器识别技术。技术背景由于数字格式的音乐文件越来越多，人们对音乐搜索的需求也越来越大。在音乐信息检索MIR领域，人们往往希望知道音乐演奏使用的是什么乐器。如果能将乐器信息包含在音频标签中，人们就可以用他们关注的特定乐器类别搜索音乐。同时，乐器为描述音频内容提供了有效的手段。准确的乐器识别可以为许多与音乐信息相关的任务带来好处，例如，它可以用于定制特定的音频均衡和音乐推荐服务，还可用于提高MIR其他任务的性能，例如，了解乐器的数量和类型可以显著提高声源分离、自动音乐转录和分类的性能。复调音乐中多种乐器在一段音频中同时占主导地位时，人们可以很容易地识别出其中的乐器，然而对于计算机来说，从音质、演奏风格都有很大差异的复调音乐中识别出乐器并不是一件简单的事情。研究者们使用能够表征音色的特征，或者将多种类型的特征进行融合后输入分类器进行乐器识别，识别性能取决于输入特征对音色的表达能力以及分类器对特征的辨别能力，因此这两个方面是目前乐器识别问题中的研究重点。
技术实现思路
本专利技术所要解决的技术问题是，提供一种通过乐器组的辅助分类训练来增强网络对乐器类别的主分类识别效果的方法。本专利技术为解决上述技术问题所采用的技术方案是，一种基于辅助分类深度神经网络的主乐器识别方法，包括以下步骤：1)数据预处理：1-1)对各音频数据进行预处理与贴标签处理后形成数据集；标签包...

【技术保护点】
1.一种基于辅助分类深度神经网络的主乐器识别方法，其特征在于，包括以下步骤：/n1)数据预处理：/n1-1)对各音频数据进行预处理与贴标签处理后形成数据集；标签包括各种乐器类型和人声；/n1-2)将数据集中各音频数据分为训练集与测试集；/n1-3)再对将训练集中各音频数据按起振类型进行辅助分类，起振类型包括硬起振组、软起振组和人声，对训练集中各音频数据进行辅助分类标签贴标；硬起振类型的乐器的起振点能量变化突然、强烈，软起振类型的乐器的起振点能量平稳；/n2)数据特征提取：对数据集中的各音频数据进行音频特征提取，构造各音频数据的特征向量；/n3)基于辅助分类的主乐器识别网络设置，包括4个卷积块，每个卷积块由一组卷积层-批归一化层-卷积层-批归一化层-池化层组成；卷积块依次连接，每个卷积块中卷积滤波器的数目分别为32、64、128和256，最后一个卷积块输出通过全局最大池化层和全连接层后输入至分类层，分类层包含两个用于2个分类任务的输出分支，一个分支为主分类的乐器类型分类，另一个分支为辅助分类的起振类型分类；设置网络训练时所使用的总损失函数Loss为：Loss＝L

【技术特征摘要】
1.一种基于辅助分类深度神经网络的主乐器识别方法，其特征在于，包括以下步骤：
1)数据预处理：
1-1)对各音频数据进行预处理与贴标签处理后形成数据集；标签包括各种乐器类型和人声；
1-2)将数据集中各音频数据分为训练集与测试集；
1-3)再对将训练集中各音频数据按起振类型进行辅助分类，起振类型包括硬起振组、软起振组和人声，对训练集中各音频数据进行辅助分类标签贴标；硬起振类型的乐器的起振点能量变化突然、强烈，软起振类型的乐器的起振点能量平稳；
2)数据特征提取：对数据集中的各音频数据进行音频特征提取，构造各音频数据的特征向量；
3)基于辅助分类的主乐器识别网络设置，包括4个卷积块，每个卷积块由一组卷积层-批归一化层-卷积层-批归一化层-池化层组成；卷积块依次连接，每个卷积块中卷积滤波器的数目分别为32、64、128和256，最后一个卷积块输出通过全局最大池化层和全连接层后输入至分类层，分类层包含两个用于2个分类任务的输出分支，一个分支为主分类的乐器类型分类，另一个分支为辅助分类的起振类型分类；设置网络训练时所使用的总损失函数Loss为：Loss＝LPB+μLAB+λLPC，其中LPB代表主分类的二分类交叉熵损失，LAB代表辅助分类的二分类交叉熵损失，μ表示LAB和LPB的比重参数，LPC代表主分类的中心损失，λ为LPC和LPB之间的比重参数；
4)训练步骤：将提取了特征向量的训练集输入至基于辅助分类的主乐器...

【专利技术属性】
技术研发人员：段惠萍，俞冬妍，方俊，曾兵，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人