一种基于多任务学习的音乐结构分析方法及装置制造方法及图纸

技术编号：35598398 阅读：17 留言：0更新日期：2022-11-16 15:18

本申请涉及音频处理技术领域，尤其涉及一种基于多任务学习的音乐结构分析方法及装置，其方法包括获取音频数据并预处理，得到目标音频数据；提取目标音频特征；调用目标神经网络模型，通过输入目标音频特征，输出音频段落的边界概率值以及标签概率值；基于预设的确定规则，在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值，并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签，通过对音乐的段落边界和段落标签进行多任务学习识别，解决了现有方案对人工经验特征及其他媒体特征数据的限制和依赖，减少了工程上的工作量以及对先验知识的要求，同时能够提升音乐结构段落分割的精度。精度。精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多任务学习的音乐结构分析方法及装置

[0001]本申请涉及音频处理
，尤其涉及一种基于多任务学习的音乐结构分析方法及装置。

技术介绍

[0002]音乐和随机音源的区别在于音乐是有复杂的结构层次的，对于单个音符有音色、音高、持续时间和发音方式的区别，再往上一层有音乐的主题、片段和篇章，再往上有更多的层次结构。比如流行音乐，由前奏、副歌主歌组成。应用计算机对音乐结构分析的主要目的就是将一首曲子的对应部分区分出来，有的部分可能出现很多次。现有众多的音乐结构分析方法中，有基于音频预定特征来确定音乐副歌及其他段落位置的，也有通过歌词文本语义相似度确定不同段落的，还有的基于音乐的音频数据以及对应的文本数据采用凸非负矩阵分解预测出音乐的边界点后的到音乐的段落。现有基于音频、文本还是及其结合的数据来分析音乐结构，对人工经验特征及其他媒体特征数据的限制和依赖较大，分析工程上的工作量以及对先验知识的要求较高，而且音乐结构段落分割的精度较低。

技术实现思路

[0003]鉴于所述问题，提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于多任务学习的音乐结构分析方法及装置，包括：
[0004]一种基于多任务学习的音乐结构分析方法，包括：
[0005]获取待分析音乐的音频数据，并对所述音频数据进行预处理，得到目标音频数据；
[0006]提取所述目标音频数据中的目标音频特征；
[0007]调用预设的目标神经网络模型，通过所述目标神经网络模型依据所述目标音频特征作为输入，...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的音乐结构分析方法，其特征在于，包括：获取待分析音乐的音频数据，并对所述音频数据进行预处理，得到目标音频数据；提取所述目标音频数据中的目标音频特征；调用预设的目标神经网络模型，通过所述目标神经网络模型依据所述目标音频特征作为输入，输出音频段落的边界概率值，以及与所述音频段落对应的标签概率值；其中，所述音频数据中包含至少一个所述音频段落；基于预设的确定规则，在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值，并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签。2.根据权利要求1所述的方法，其特征在于，所述获取待分析音乐的音频数据，并对所述音频数据进行预处理，得到目标音频数据，包括：获取用户输入的目标链接地址，依据所述目标链接地址获取所述音频数据；调用预设的音频转码程序，通过所述音频转码程序依据预设的目标采样率对所述音频数据进行转码处理，得到所述目标音频数据。3.根据权利要求1所述的方法，其特征在于，所述提取所述目标音频数据中的目标音频特征，包括：调用预设的音频特征提取程序，通过所述音频特征提取程序依据预设的目标提取策略对所述目标音频特征进行提取，得到所述目标音频特征。4.根据权利要求1所述的方法，其特征在于，所述调用预设的目标神经网络模型之前，包括：获取音频样本训练集；基于预设的神经网络框架，输入所述音频样本训练集对所述神经网络框架中的深度学习网络模块进行训练；其中，所述深度学习网络模块包括顺次连接的谱增强层、二维卷积层、批归一化层、非线性激活层、平均池化层、自注意力层、Dropout层、ADD层、LogSoftmax以及Sigmiod层；依据训练得到的所述深度学习网络模块输出与音频样本训练集对应的边界概率值和标签概率值。5.根据权利要求4所述的方法，其特征在于，所述基于预设的神经网络框架，输入所述音频样本训练集对所述神经网络框架中的深度学习网络模块进行训练，之前还包括：调用预设的标注程序，确定所述...

【专利技术属性】
技术研发人员：苟志云，
申请(专利权)人：成都开心音符科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人