用于音乐结构特征的监督度量学习制造技术

技术编号：40139418 阅读：9 留言：0更新日期：2024-01-23 23:22

本文公开了与在深度神经网络模型的训练期间实现监督度量学习相关的设备、系统和方法。在示例中，可接收音频输入，其中音频输入包括来自多个歌曲的多个歌曲片段。针对每个歌曲片段，可执行对准功能以基于所确定的节拍信息而使歌曲片段居中，从而创建多个对准的歌曲片段。针对多个歌曲片段中的每个歌曲片段，可从深度神经网络获得嵌入向量。因此，可从多个对准的歌曲片段中选择一批对准的歌曲片段，使得可选择训练元组。可基于所选择的训练元组而生成损失度量，并且可基于损失度量而更新深度神经网络模型的一个或多个权重。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及机器学习，特别是涉及使用监督度量学习来训练深度神经网络模型的方法和系统。

技术介绍

1、在音乐结构分析(msa)领域，许多算法使用常规特征，诸如梅尔频率倒谱系数(mfcc)和音高类别轮廓(pcp)。为msa设计一个合适的特征具有挑战性，因为音乐的许多方面——包括音高、音色、节奏和力度——对感知结构均很重要。过去的msa方法结合了来自多个特征的输入；然而，在这样做时必须小心，至少因为不同的特征在不同的时间尺度下比其他特征工作得更好。虽然监督学习方法已经被用来模拟音乐边界和合唱，但是这类监督学习方法往往与现有的msa处理流水线不兼容；相反，需要新的后处理方法来实施这类方法。此外，先前的监督学习方法限于解决特定问题或msa版本；即分割和合唱检测。现有的方法均没有考虑分割和标记。仍然需要开发一种监督学习方法，该方法可最小化由于同时进行分割和标记任务而造成的损失。

2、针对这些和其他一般考虑事项，对本文所公开的方面进行了描述。此外，尽管可论述了相对具体的问题，但是应理解，这些示例不应限于解决在
技术介绍
中或本公开的其他地方确定的具体问题。

技术实现思路

1、根据本公开的至少一个示例，描述了一种用于在深度神经网络模型的训练期间实施监督度量学习的方法。该方法可包括实施被配置为接收歌曲并输出表示歌曲的嵌入的深度神经网络，以及实施被配置为接收嵌入、分割嵌入并检测歌曲的重复部分的音乐结构分析框架。在示例中，深度神经网络的训练通过监督度量学习来实施，包含：接收包括来自多个歌曲的多个歌

2、根据本公开的至少一个示例，描述了一种用于在深度神经网络模型的训练期间实施监督度量学习的装置。该装置可包括至少一个处理器和在其中存储计算机程序代码的非暂时性计算机可读介质，该计算机程序代码包括用于一个或多个程序的指令，该指令在由处理器实行时使处理器：实施音乐结构分析框架，该音乐结构分析框架被配置为从深度神经网络模型接收表示歌曲的嵌入，分割嵌入，并且检测歌曲的重复部分；并且通过以下方式在深度神经网络模型的训练期间实施监督度量学习：接收包括来自多个歌曲的多个歌曲片段的音频输入；对于多个歌曲片段中的每个歌曲片段，确定节拍信息；对于多个歌曲片段中的每个歌曲片段，基于节拍信息而执行对准功能以使歌曲片段居中，从而创建多个对准的歌曲片段；对于多个歌曲片段中的每个歌曲片段，从深度神经网络获得嵌入；从多个对准的歌曲片段中选择一批对准的歌曲片段，该批对准的歌曲片段与多个歌曲中的同一首歌曲相关联；对所选择的一批对准的歌曲片段进行采样并选择训练元组，该训练元组包含：基于所选择的训练元组而生成损失度量；以及基于损失度量而更新深度神经网络模型的一个或多个权重。

3、上述一个或多个方面中的任何一个，与一个或多个方面中的任何其他方面相结合。本文所描述的一个或多个方面中的任何一个。

4、提供本
技术实现思路
以简化形式介绍概念的选择，其在下文的详细描述中另外描述。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用来限制所要求保护的主题的范围。示例的附加方面、特征和/或优点将在以下描述中部分地阐述，并且部分地将从描述中变得显而易见，或者可通过实践本公开而获知。

本文档来自技高网...

【技术保护点】

1.一种用于在深度神经网络模型的训练期间实现监督度量学习的方法，所述方法包括：

2.根据权利要求1所述的方法，其中每个歌曲片段包括与相应歌曲的重复部分相对应的标签。

3.根据权利要求2所述的方法，还包括：

4.根据权利要求2所述的方法，其中所选择的所述训练元组包括多个对准的歌曲片段中具有不同标签的若干对准的歌曲片段。

5.根据权利要求2所述的方法，还包括：

6.根据权利要求2所述的方法，其中所述深度神经网络模型一经训练输出针对具有相同标签的歌曲片段的嵌入，具有相同标签的歌曲片段的所述嵌入比具有不同标签的歌曲片段的所述嵌入彼此更接近。

7.根据权利要求6所述的方法，还包括：

8.根据权利要求1所述的方法，其中所述深度神经网络包括嵌入模块，所述嵌入模块包括线性层、泄漏ReLU层、批量归一化层和归一化层。

9.一种装置，包括：

10.根据权利要求9所述的装置，其中每个歌曲片段包括与相应歌曲的重复部分相对应的标签。

11.根据权利要求10所述的装置，其中在所述深度神经网

12.根据权利要求10所述的装置，其中所选择的所述训练元组包括多个对准的歌曲片段中具有不同标签的若干对准的歌曲片段。

13.根据权利要求10所述的装置，其中在所述深度神经网络的所述训练期间实现所述监督度量学习还包括：

14.根据权利要求10所述的装置，其中所述深度神经网络模型一经训练，输出针对具有相同标签的歌曲片段的嵌入，具有相同标签的歌曲片段的所述嵌入比具有不同标签的歌曲片段的所述嵌入彼此更接近。

15.根据权利要求10所述的装置，其中所述深度神经网络包括嵌入模块，所述嵌入模块包括线性层、泄漏ReLU层、批量归一化层和归一化层。

16.一种包括指令的计算机可读存储介质，所述指令在由处理器执行时使所述处理器：

17.根据权利要求16所述的计算机可读介质，其中每个歌曲片段包括与相应歌曲的重复部分相对应的标签。

18.根据权利要求17所述的计算机可读介质，其中所述指令在由所述处理器执行时使所述处理器：

19.根据权利要求17所述的计算机可读介质，其中所选择的所述训练元组包括所述多个对准的歌曲片段中具有不同标签的若干对准的歌曲片段。

20.根据权利要求17所述的计算机可读介质，其中所述指令在由所述处理器执行时使所述处理器：

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于在深度神经网络模型的训练期间实现监督度量学习的方法，所述方法包括：

2.根据权利要求1所述的方法，其中每个歌曲片段包括与相应歌曲的重复部分相对应的标签。

3.根据权利要求2所述的方法，还包括：

4.根据权利要求2所述的方法，其中所选择的所述训练元组包括多个对准的歌曲片段中具有不同标签的若干对准的歌曲片段。

5.根据权利要求2所述的方法，还包括：

7.根据权利要求6所述的方法，还包括：

8.根据权利要求1所述的方法，其中所述深度神经网络包括嵌入模块，所述嵌入模块包括线性层、泄漏relu层、批量归一化层和归一化层。

9.一种装置，包括：

10.根据权利要求9所述的装置，其中每个歌曲片段包括与相应歌曲的重复部分相对应的标签。

11.根据权利要求10所述的装置，其中在所述深度神经网络的所述训练期间实现所述监督度量学习还包括：

12.根据权利要求10所述的装置，其中...

【专利技术属性】
技术研发人员：乔丹·史密斯，王如江，吕维宗，宋旭晨，
申请(专利权)人：脸萌有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人