一种基于多任务学习的音乐结构分析方法及装置制造方法及图纸

技术编号:35598398 阅读:17 留言:0更新日期:2022-11-16 15:18
本申请涉及音频处理技术领域,尤其涉及一种基于多任务学习的音乐结构分析方法及装置,其方法包括获取音频数据并预处理,得到目标音频数据;提取目标音频特征;调用目标神经网络模型,通过输入目标音频特征,输出音频段落的边界概率值以及标签概率值;基于预设的确定规则,在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值,并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签,通过对音乐的段落边界和段落标签进行多任务学习识别,解决了现有方案对人工经验特征及其他媒体特征数据的限制和依赖,减少了工程上的工作量以及对先验知识的要求,同时能够提升音乐结构段落分割的精度。精度。精度。

【技术实现步骤摘要】
一种基于多任务学习的音乐结构分析方法及装置


[0001]本申请涉及音频处理
,尤其涉及一种基于多任务学习的音乐结构分析方法及装置。

技术介绍

[0002]音乐和随机音源的区别在于音乐是有复杂的结构层次的,对于单个音符有音色、音高、持续时间和发音方式的区别,再往上一层有音乐的主题、片段和篇章,再往上有更多的层次结构。比如流行音乐,由前奏、副歌主歌组成。应用计算机对音乐结构分析的主要目的就是将一首曲子的对应部分区分出来,有的部分可能出现很多次。现有众多的音乐结构分析方法中,有基于音频预定特征来确定音乐副歌及其他段落位置的,也有通过歌词文本语义相似度确定不同段落的,还有的基于音乐的音频数据以及对应的文本数据采用凸非负矩阵分解预测出音乐的边界点后的到音乐的段落。现有基于音频、文本还是及其结合的数据来分析音乐结构,对人工经验特征及其他媒体特征数据的限制和依赖较大,分析工程上的工作量以及对先验知识的要求较高,而且音乐结构段落分割的精度较低。

技术实现思路

[0003]鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于多任务学习的音乐结构分析方法及装置,包括:
[0004]一种基于多任务学习的音乐结构分析方法,包括:
[0005]获取待分析音乐的音频数据,并对所述音频数据进行预处理,得到目标音频数据;
[0006]提取所述目标音频数据中的目标音频特征;
[0007]调用预设的目标神经网络模型,通过所述目标神经网络模型依据所述目标音频特征作为输入,输出音频段落的边界概率值,以及与所述音频段落对应的标签概率值;其中,所述音频数据中包含至少一个所述音频段落;
[0008]基于预设的确定规则,在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值,并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签。
[0009]优选的,所述获取待分析音乐的音频数据,并对所述音频数据进行预处理,得到目标音频数据,包括:
[0010]获取用户输入的目标链接地址,依据所述目标链接地址获取所述音频数据;
[0011]调用预设的音频转码程序,通过所述音频转码程序依据预设的目标采样率对所述音频数据进行转码处理,得到所述目标音频数据。
[0012]优选的,所述提取所述目标音频数据中的目标音频特征,包括:
[0013]调用预设的音频特征提取程序,通过所述音频特征提取程序依据预设的目标提取策略对所述目标音频特征进行提取,得到所述目标音频特征。
[0014]优选的,所述调用预设的目标神经网络模型之前,包括:
[0015]获取音频样本训练集;
[0016]基于预设的神经网络框架,输入所述音频样本训练集对所述神经网络框架中的深度学习网络模块进行训练;其中,所述深度学习网络模块包括顺次连接的谱增强层、二维卷积层、批归一化层、非线性激活层、平均池化层、自注意力层、Dropout层、ADD层、LogSoftmax以及Sigmiod层;
[0017]依据训练得到的所述深度学习网络模块输出与音频样本训练集对应的边界概率值和标签概率值。
[0018]优选的,所述基于预设的神经网络框架,输入所述音频样本训练集对所述神经网络框架中的深度学习网络模块进行训练,之前还包括:
[0019]调用预设的标注程序,确定所述音频样本训练集中每一音频样本数据中所包含的音频段落以及相对应的标签。
[0020]优选的,基于预设的确定规则,在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值,包括:
[0021]依据所述确定规则确定边界参考值;
[0022]若该边界参考值大于该音频段落中任一边界概率值,则以该边界参考值作为该音频段落的目标边界值;
[0023]若音频段落中其中一边界概率值大于该边界参考值,这以该边界概率值作为该音频段落的目标边界值。
[0024]优选的,所述依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签,包括:
[0025]确定该音频段落的目标边界值所包含的所有的边界概率值以及相对应的标签概率值;
[0026]依据所有相对应的所述标签概率值计算每一标签的平均概率值;
[0027]确定平均概率值最大的标签作为所述目标标签。
[0028]还提供一种基于多任务学习的音乐结构分析装置,包括:
[0029]获取模块,用于获取待分析音乐的音频数据,并对所述音频数据进行预处理,得到目标音频数据;
[0030]提取模块,用于提取所述目标音频数据中的目标音频特征;
[0031]处理模块,用于调用预设的目标神经网络模型,通过所述目标神经网络模型依据所述目标音频特征作为输入,输出音频段落的边界概率值,以及与所述音频段落对应的标签概率值;其中,所述音频数据中包含至少一个所述音频段落;
[0032]确定模块,用于基于预设的确定规则,在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值,并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签。
[0033]为实现本申请还包括一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤。
[0034]为实现本申请一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0035]本申请具有以下优点:
[0036]在本申请的实施例中,通过获取待分析音乐的音频数据,并对所述音频数据进行预处理,得到目标音频数据;提取所述目标音频数据中的目标音频特征;调用预设的目标神经网络模型,通过所述目标神经网络模型依据所述目标音频特征作为输入,输出音频段落的边界概率值,以及与所述音频段落对应的标签概率值;其中,所述音频数据中包含至少一个所述音频段落;基于预设的确定规则,在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值,并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签,通过深度网络模型以及后处理解决现有方案对人工经验特征及其他媒体特征数据的限制和依赖,减少了工程上的工作量以及对先验知识的要求,同时能够提升音乐结构段落分割的精度。
附图说明
[0037]为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本申请一实施例提供的一种基于多任务学习的音乐结构分析方法的步骤流程图;
[0039]图2是本申请一实施例提供的一种基于多任务学习的音乐结构分析方法的神经网络模型的结构示意图;
[0040]图3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的音乐结构分析方法,其特征在于,包括:获取待分析音乐的音频数据,并对所述音频数据进行预处理,得到目标音频数据;提取所述目标音频数据中的目标音频特征;调用预设的目标神经网络模型,通过所述目标神经网络模型依据所述目标音频特征作为输入,输出音频段落的边界概率值,以及与所述音频段落对应的标签概率值;其中,所述音频数据中包含至少一个所述音频段落;基于预设的确定规则,在该音频段落的所有所述边界概率值和所述标签概率值中确定目标边界值和目标标签值,并依据所述目标边界值和目标标签值确定该音频段落的目标边界和目标标签。2.根据权利要求1所述的方法,其特征在于,所述获取待分析音乐的音频数据,并对所述音频数据进行预处理,得到目标音频数据,包括:获取用户输入的目标链接地址,依据所述目标链接地址获取所述音频数据;调用预设的音频转码程序,通过所述音频转码程序依据预设的目标采样率对所述音频数据进行转码处理,得到所述目标音频数据。3.根据权利要求1所述的方法,其特征在于,所述提取所述目标音频数据中的目标音频特征,包括:调用预设的音频特征提取程序,通过所述音频特征提取程序依据预设的目标提取策略对所述目标音频特征进行提取,得到所述目标音频特征。4.根据权利要求1所述的方法,其特征在于,所述调用预设的目标神经网络模型之前,包括:获取音频样本训练集;基于预设的神经网络框架,输入所述音频样本训练集对所述神经网络框架中的深度学习网络模块进行训练;其中,所述深度学习网络模块包括顺次连接的谱增强层、二维卷积层、批归一化层、非线性激活层、平均池化层、自注意力层、Dropout层、ADD层、LogSoftmax以及Sigmiod层;依据训练得到的所述深度学习网络模块输出与音频样本训练集对应的边界概率值和标签概率值。5.根据权利要求4所述的方法,其特征在于,所述基于预设的神经网络框架,输入所述音频样本训练集对所述神经网络框架中的深度学习网络模块进行训练,之前还包括:调用预设的标注程序,确定所述...

【专利技术属性】
技术研发人员:苟志云
申请(专利权)人:成都开心音符科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1