【技术实现步骤摘要】
一种基于辅助分类深度神经网络的主乐器识别方法
本专利技术涉及深度学习、音乐信息检索技术,特别涉及针对复调音乐中的主乐器识别技术。技术背景由于数字格式的音乐文件越来越多,人们对音乐搜索的需求也越来越大。在音乐信息检索MIR领域,人们往往希望知道音乐演奏使用的是什么乐器。如果能将乐器信息包含在音频标签中,人们就可以用他们关注的特定乐器类别搜索音乐。同时,乐器为描述音频内容提供了有效的手段。准确的乐器识别可以为许多与音乐信息相关的任务带来好处,例如,它可以用于定制特定的音频均衡和音乐推荐服务,还可用于提高MIR其他任务的性能,例如,了解乐器的数量和类型可以显著提高声源分离、自动音乐转录和分类的性能。复调音乐中多种乐器在一段音频中同时占主导地位时,人们可以很容易地识别出其中的乐器,然而对于计算机来说,从音质、演奏风格都有很大差异的复调音乐中识别出乐器并不是一件简单的事情。研究者们使用能够表征音色的特征,或者将多种类型的特征进行融合后输入分类器进行乐器识别,识别性能取决于输入特征对音色的表达能力以及分类器对特征的辨别能力, ...
【技术保护点】
1.一种基于辅助分类深度神经网络的主乐器识别方法,其特征在于,包括以下步骤:/n1)数据预处理:/n1-1)对各音频数据进行预处理与贴标签处理后形成数据集;标签包括各种乐器类型和人声;/n1-2)将数据集中各音频数据分为训练集与测试集;/n1-3)再对将训练集中各音频数据按起振类型进行辅助分类,起振类型包括硬起振组、软起振组和人声,对训练集中各音频数据进行辅助分类标签贴标;硬起振类型的乐器的起振点能量变化突然、强烈,软起振类型的乐器的起振点能量平稳;/n2)数据特征提取:对数据集中的各音频数据进行音频特征提取,构造各音频数据的特征向量;/n3)基于辅助分类的主乐器识别网络设 ...
【技术特征摘要】
1.一种基于辅助分类深度神经网络的主乐器识别方法,其特征在于,包括以下步骤:
1)数据预处理:
1-1)对各音频数据进行预处理与贴标签处理后形成数据集;标签包括各种乐器类型和人声;
1-2)将数据集中各音频数据分为训练集与测试集;
1-3)再对将训练集中各音频数据按起振类型进行辅助分类,起振类型包括硬起振组、软起振组和人声,对训练集中各音频数据进行辅助分类标签贴标;硬起振类型的乐器的起振点能量变化突然、强烈,软起振类型的乐器的起振点能量平稳;
2)数据特征提取:对数据集中的各音频数据进行音频特征提取,构造各音频数据的特征向量;
3)基于辅助分类的主乐器识别网络设置,包括4个卷积块,每个卷积块由一组卷积层-批归一化层-卷积层-批归一化层-池化层组成;卷积块依次连接,每个卷积块中卷积滤波器的数目分别为32、64、128和256,最后一个卷积块输出通过全局最大池化层和全连接层后输入至分类层,分类层包含两个用于2个分类任务的输出分支,一个分支为主分类的乐器类型分类,另一个分支为辅助分类的起振类型分类;设置网络训练时所使用的总损失函数Loss为:Loss=LPB+μLAB+λLPC,其中LPB代表主分类的二分类交叉熵损失,LAB代表辅助分类的二分类交叉熵损失,μ表示LAB和LPB的比重参数,LPC代表主分类的中心损失,λ为LPC和LPB之间的比重参数;
4)训练步骤:将提取了特征向量的训练集输入至基于辅助分类的主乐器...
【专利技术属性】
技术研发人员:段惠萍,俞冬妍,方俊,曾兵,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。