基于标签深度分析的音乐自动标注方法技术

技术编号:21432248 阅读:32 留言:0更新日期:2019-06-22 11:56
本发明专利技术公开了一种基于标签深度分析的音乐自动标注方法,包括以下步骤:S1、收集音乐数据并结合音乐标签体系进行数据清洗;S2、对音乐数据进行采样,转换为梅尔频谱图并进行数据切片;S3、基于一维卷积网络构建音频多层级特征提取网络,通过有监督学习进行参数预训练;S4、基于二维卷积网络进行音乐标签向量表示学习,获取音乐标签特征;S5、实现音频多层级特征与音乐标签特征的特征聚合;S6、基于聚合特征进行最终的音乐标签预测。本发明专利技术克服了传统音乐标注方式不能应用于大规模音乐数据集的困难,根据音频内容对音乐进行自动标注,减少了人工维护音乐标签库的工作量,具有很好的可用性。

【技术实现步骤摘要】
基于标签深度分析的音乐自动标注方法
本专利技术涉及音乐信息研究领域,具体涉及一种基于标签深度分析的音乐自动标注方法。
技术介绍
近年来,数字音乐日益普及,用户在互联网上可访问的音乐数量已超过3000万首。另外,由于用户经常在社交媒体上发布大量原创歌曲、翻唱歌曲和其他多媒体资源,音乐的类型日益多元化。作为一种组织海量音乐数据的有效手段,丰富的音乐标注信息对于在线音乐产品有重要价值。音乐标注信息也为音乐检索、音乐发现服务提供很高的潜在经济价值。基于此,音乐自动标注作为一种有效的音乐信息丰富方法受到越来越多的关注与研究。深度神经网络已经成功应用于音乐自动标注领域。深度学习通常需要一个规模足够大的训练集,而唯一满足这个要求的只有在线音乐应用下用户标注的音乐数据集。在这些用户生成的标注元数据中,音乐标签不仅用于描述音乐本身属性如乐器、发布日期等,还用于描述用户对音乐特性的主观认识及个人观点。用户对音乐标签的组织方式也有决定性作用,比如用户可以根据个人习惯定义音乐标签结构。例如,某些用户在在线音乐流媒体上输入独特的标签,如用随机的字符序列对音乐进行标注,从而更好地管理个人音乐收藏。这些标签对其他用户没有任何意义,因此这是用户滥用音乐标注服务的一种体现。虽然这种性质的标签很容易通过启发式方法识别及去除,但用户标注数据集中其他问题并不容易解决。这些问题包括错误标注,过度使用如流派或情感类别等主观标签,以及标签分类体系异构等问题。这些问题是造成数据集中存在标签噪声的重要原因,数据集标签噪声会导致深度神经网络的学习效果较差。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供了一种基于标签深度分析的音乐自动标注方法。本专利技术的目的可以通过如下技术方案实现:一种基于标签深度分析的音乐自动标注方法,所述方法包括以下步骤:S1、收集音乐数据并结合音乐标签体系进行数据清洗;S2、对音乐数据进行采样,转换为梅尔频谱图并进行数据切片;S3、基于一维卷积网络构建音频多层级特征提取网络,通过有监督学习进行参数预训练;S4、基于二维卷积网络进行音乐标签向量表示学习,获取音乐标签特征;S5、实现音频多层级特征与音乐标签特征的特征聚合;S6、基于聚合特征进行最终的音乐标签预测。进一步地,所述步骤S1具体包括以下步骤:S11、从自有曲库和互联网音乐平台收集音乐音频和音乐标签数据;S12、根据音乐标签体系对音乐标签进行清洗、规范化,过滤掉缺少标签标注的音乐数据。进一步地,所述步骤S2具体包括以下步骤:S21、将音乐音频数据转换为mp3格式,按照16kHz采样频率进行采样或重采样;S22、对采样音频进行梅尔频谱图转换;S23、对梅尔频谱进行对数处理,根据固定音频帧窗口大小重复随机采样,再对每个切片进行标准化和归一化。进一步地,所述步骤S3具体包括以下步骤:S31、将输入的音频梅尔频谱图采用一维卷积网络进行卷积,使用指数线性激活函数ELU对网络层输出进行非线性变换;S32、采用一维最大池化层对卷积网络输出结果进行池化,通过Dropout操作随机丢弃部分网络层输出结果;S33、重复步骤S31~S32,构建具有三层卷积网络堆叠的模型;S34、将最后一层卷积网络的输出进行扁平化,使用一个全连接网络进行特征提取,最终连接到具有Sigmoid激活函数的输出层;S35、使用标注数据通过有监督学习对音频多层级特征提取网络进行预训练,保存模型参数。进一步地,所述步骤S4具体包括以下步骤:S41、将输入的音频梅尔频谱图采用二维卷积网络进行卷积,使用指数线性激活函数ELU对网络层进行非线性变换;S42、采用二维最大池化层对卷积网络输出结果进行池化,通过Dropout操作随机丢弃部分网络层输出结果;S43、重复步骤S41~S42,构建具有五层卷积网络堆叠的模型;S44、将最后一层卷积网络的输出进行扁平化,使用一个全连接网络进行特征提取,最终连接到具有Sigmoid激活函数的输出层;S45、使用标注数据通过有监督学习对音乐标签进行表示学习,提取模型最后一个全连接输出层的网络参数作为音乐标签特征矩阵,得到音乐标签表示学习结果。进一步地,所述步骤S5具体包括以下步骤:S51、对音频多层级特征进行最大池化和平均池化,得到多个一维音频特征向量;S52、对于带有部分标注标签的输入音频,将已标注标签的向量进行平均池化;对于不具备已标注标签的音频,采用缺省向量表示,缺省向量在最终的标签预测模型训练时自适应学习;S53、将各层级池化所得到的多个一维音频特征向量与标签特征向量进行线性拼接,得到聚合特征向量。进一步地,所述步骤S6具体包括以下步骤:S61、将步骤S5得到的聚合特征作为输入,使用两个全连接层对聚合特征进行提取和非线性变换;S62、将最后一个网络层连接到具有Sigmoid激活函数的输出层;S63、使用标注数据通过有监督学习对最终的音乐标签预测网络进行训练,从而通过训练好的音乐标签预测网络进行最终的音乐标签预测。本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术提出的基于标签深度分析的音乐自动标注方法通过定义标签向量,利用表示学习方法挖掘音乐标签间的深层关系,克服了深度学习在具有大量标签噪声的标注数据集上学习效果不佳等问题,提升了音乐自动标注的表现。2、本专利技术提供的基于标签深度分析的音乐自动标注方法,克服了专家标注方式不能应用于大规模音乐数据集的困难,根据音频内容对音乐进行自动标注,能够有效支持在线音乐服务的应用需求。3、本专利技术提供的基于标签深度分析的音乐自动标注方法,采用卷积神经网络从音频特征中提取多层级特征,结合音乐标签向量,将两者特征进行聚合,最终利用聚合特征进行标签预测,提高了音乐自动标注模型对噪声数据的鲁棒性。附图说明图1为本专利技术实施例基于标签深度分析的音乐自动标注方法的流程图。图2为本专利技术实施例基于标签深度分析的音乐自动标注方法的模型总体框架图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例:本实施例提供了一种基于标签深度分析的音乐自动标注方法,流程图如图1所示,包括以下步骤:S1、收集音乐数据并结合音乐标签体系进行数据清洗;S2、对音乐数据进行采样,转换为梅尔频谱图并进行数据切片;S3、基于一维卷积网络构建音频多层级特征提取网络,通过有监督学习进行参数预训练;S4、基于二维卷积网络进行音乐标签向量表示学习,获取音乐标签特征;S5、实现音频多层级特征与音乐标签特征的特征聚合;S6、基于聚合特征进行最终的音乐标签预测。上述方法采用一维卷积网络构建音频多层级特征提取网络,通过有监督学习方法对特征提取网络进行预训练;采用二维卷积网络通过有监督方法对音乐标签进行表示学习,提取输出层网络参数得到标签的向量化表示结果;通过最大池化和平均池化操作提取多层级音频特征,通过线性拼接实现音频多层级特征与音乐标签特征的特征融合;采用全连接网络构建最终音乐标签预测模型,基于融合特征实现音乐自动标注。其中,所述的音乐音频切片前需要对音频梅尔频谱进行对数处理,根据固定音频帧窗口大小重复随机采样,再对每个切片进行标准化和归一化。进一步地,如图2所示,所述步骤S2对音乐数据进行采样,转换为梅尔频谱图并进行数据切片的具体过程为:S21、将音乐音频本文档来自技高网...

【技术保护点】
1.一种基于标签深度分析的音乐自动标注方法,其特征在于,所述方法包括以下步骤:S1、收集音乐数据并结合音乐标签体系进行数据清洗;S2、对音乐数据进行采样,转换为梅尔频谱图并进行数据切片;S3、基于一维卷积网络构建音频多层级特征提取网络,通过有监督学习进行参数预训练;S4、基于二维卷积网络进行音乐标签向量表示学习,获取音乐标签特征;S5、实现音频多层级特征与音乐标签特征的特征聚合;S6、基于聚合特征进行最终的音乐标签预测。

【技术特征摘要】
1.一种基于标签深度分析的音乐自动标注方法,其特征在于,所述方法包括以下步骤:S1、收集音乐数据并结合音乐标签体系进行数据清洗;S2、对音乐数据进行采样,转换为梅尔频谱图并进行数据切片;S3、基于一维卷积网络构建音频多层级特征提取网络,通过有监督学习进行参数预训练;S4、基于二维卷积网络进行音乐标签向量表示学习,获取音乐标签特征;S5、实现音频多层级特征与音乐标签特征的特征聚合;S6、基于聚合特征进行最终的音乐标签预测。2.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S1具体包括以下步骤:S11、从自有曲库和互联网音乐平台收集音乐音频和音乐标签数据;S12、根据音乐标签体系对音乐标签进行清洗、规范化,过滤掉缺少标签标注的音乐数据。3.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S2具体包括以下步骤:S21、将音乐音频数据转换为mp3格式,按照16kHz采样频率进行采样或重采样;S22、对采样音频进行梅尔频谱图转换;S23、对梅尔频谱进行对数处理,根据固定音频帧窗口大小重复随机采样,再对每个切片进行标准化和归一化。4.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S3具体包括以下步骤:S31、将输入的音频梅尔频谱图采用一维卷积网络进行卷积,使用指数线性激活函数ELU对网络层输出进行非线性变换;S32、采用一维最大池化层对卷积网络输出结果进行池化,通过Dropout操作随机丢弃部分网络层输出结果;S33、重复步骤S31~S32,构建具有三层卷积网络堆叠的模型;S34、将最后一层卷积网络的输出进行扁平化,使用一个全连接网络进行特征提取,最终连接到具有Sigmoid激活函数的输出层;S35、使用标注数据通过...

【专利技术属性】
技术研发人员:王振宇萧永乐张睿雷昶高雨轩
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1