基于音频数据标识音乐属性制造技术

技术编号:39741262 阅读:8 留言:0更新日期:2023-12-17 23:42
本公开描述了用于标识音乐属性的技术

【技术实现步骤摘要】
【国外来华专利技术】基于音频数据标识音乐属性

技术介绍

[0001]音乐分类在理解音乐语义和音乐推荐方面发挥着重要作用

拥有基于较大规模音乐库的音乐推荐服务的行业,对音乐分类有着强烈的需求

然而,由于各种限制,常规的音乐分类技术可能无法满足这些行业的需求

因此,需要的是音乐分类技术的改进

附图说明
[0002]并入本说明书并且构成本说明书的一部分的附图图示了实施例并且与描述一起用于解释方法和系统的原理:
[0003]图1是图示用于根据本公开使用的示例系统的示意图

[0004]图2图示了根据本公开可以使用的音乐标注变换器的示例模型

[0005]图3图示了根据本公开可以使用的音乐标注变换器的示例前端

[0006]图
4a
至图
b
图示了根据本公开可以使用的用于噪声学生训练的示例过程

[0007]图5图示了根据本公开可以使用的噪声学生训练的示例伪代码

[0008]图6图示了根据本公开可以使用的用于训练和应用音乐标注变换器模型的示例过程

[0009]图7图示了根据本公开可以使用的用于训练音乐标注变换器模型的示例过程

[0010]图8图示了根据本公开可以使用的应用音乐标注变换器模型的示例过程

[0011]图9图示了根据本公开可以使用的应用音乐标注变换器模型的示例过程

[0012]图
10
至图
11
图示了描绘不同音乐标注模型的不同性能能力的示例表

[0013]图
12
图示了描绘不同音乐标注模型的不同性能能力的示例图

[0014]图
13
图示了描绘根据本公开可以使用的音乐标注变换器模型的性能能力的示例表

[0015]图
14
图示了根据本公开可以使用的示例计算设备
。。
具体实施方式
[0016]标识音乐属性以对音乐进行分类对于音乐发现和音乐推荐系统来说是必不可少的

自动的音乐标注是旨在预测对于给定的一段音乐的相关属性
(
即标签
)
的分类任务

基于一段音乐的音频特征,经训练的音乐标注模型可以预测关于该段音乐的适当标签,例如流派

情绪

乐器

地区

年代等

[0017]最近,自动音乐标注性能通过具有各种深度架构的卷积神经网络
(CNN)
而得到大幅改进

然而,当前的音乐标注研究仍然存在一些局限性

例如,用于监督学习的标记的数据数量有限

标记音乐标签非常耗时,并且需要域专业知识来标记高级语义

大规模的数据集,百万首歌曲数据集
(MSD)
,其照字面地包括一百万首歌曲,已经在音乐标注研究中变得流行

在百万首歌曲中,仅约
24
%的歌曲被标记了前
50
个音乐标签中的至少一个,并且在当前的音乐标注研究中,
MSD
中约
76
%的歌曲被丢弃

此类型的设置,即,少量标记的数据与大量未标记的数据,不仅限于
MSD
,而且与领域无关地可以在大多数真实世界的数据中找到

再例如,音乐信号是序列数据的形式,但是当前的音乐标注模型对短音频组块
(3
至5秒长
)、
密集跨越最大池层和全局池层进行预测

例如,为了预测3分钟歌曲的音乐标注,当前的模型将音频拆分成多个短音频组块并且模型对每个组块进行预测

然后,预测通过多数投票或全局平均池
/
最大池而被简单地整合

这意味着模型表现得像特征包模型,而不是将音乐表示建模为序列

[0018]为了解决这些问题,本公开引入了利用半监督方法训练的音乐标注变换器
(Music Tagging Transformer

MTT)
模型

音乐标注变换器模型包括两部分:卷积神经网络
(CNN)
前端和变换器后端
。CNN
前端捕获浅卷积层中的本地音频特征

然后,变换器后端使用堆叠的自注意力层暂时总结所提取的特征序列

已经证明,
MTT
模型优于当前在监督方案下基于
CNN
的音乐标注模型

[0019]MTT
模型可以通过使用噪声学生训练得到进一步改进,这是一种利用标记的数据和未标记的数据两者与数据扩充相结合的半监督方法

大量的未标记数据可以被用于音乐标注技术是非常有意义的

[0020]另外,本公开发起了
MSD
的新拆分,即,清理的和艺术家层面的拆分
(Cleaned and artist

level(C&A)
拆分
)。C&A
拆分可以减轻有噪声的评估
(
即,不正确的评估
)。
它还可以将艺术家信息考虑在内,而不会导致过于乐观的评估

通过使用
C&A
拆分,音乐标注变换器模型可以利用
MSD
的整个音频数据

[0021]图1图示了其中可以实现本文所描述的系统和方法的示例环境
100。
环境
100
包括云网络
102
和至少一个客户端设备
132。
云网络
102
和客户端设备
132
经由一个或多个网络
130
进行通信
。MTT
模型可以包括在客户端设备
132
或由云网络
102
托管的音乐属性标识系统
114


[0022]应理解的是,图1仅是说明性的并且可以利用其他实现方式

例如,客户端设备
132、
音乐属性标识系统
114
或其他计算设备可以单独使用或组合使用来实现如本公开中所描述的标识音乐属性的技术

还应理解的是,图1所示的网络拓扑已经被大大简化,并且可以利用更多的网络

设备和数据库来互连各种计算系统

[0023]云网络<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种方法,包括:接收一段音乐的音频数据;基于所述一段音乐的所述音频数据使用模型来确定所述一段音乐的至少一个属性;其中所述模型包括卷积神经网络和变换器;以及其中所述模型是使用训练数据被训练的,所述训练数据包括与第一多个音乐样本相关联的标记的数据以及与第二多个音乐样本相关联的未标记的数据,所述标记的数据包括所述第一多个音乐样本的音频数据和指示所述第一多个音乐样本的属性的标记信息,并且所述未标记的数据包括所述第二多个音乐样本的音频数据
。2.
根据权利要求1所述的方法,还包括:通过预处理所述一段音乐的所述音频数据来生成表示所述一段音乐的所述音频数据的图像
。3.
根据权利要求2所述的方法,其中表示所述一段音乐的所述音频数据的所述图像包括梅尔频谱图
。4.
根据权利要求2所述的方法,还包括:将所述卷积神经网络应用于表示所述一段音乐的所述音频数据的所述图像;以及输出从表示所述一段音乐的所述音频数据的所述图像中提取的特征序列
。5.
根据权利要求4所述的方法,还包括:将所述变换器应用于从表示所述一段音乐的所述音频数据的所述图像中提取的所述特征序列;以及输出对所述一段音乐的所述至少一个属性的预测
。6.
根据权利要求1所述的方法,其中所述卷积神经网络包括具有残差连接的3×3卷积滤波器
。7.
根据权利要求1所述的方法,其中所述变换器包括堆叠的多头自注意力层
。8.
根据权利要求1所述的方法,其中所述模型是使用噪声学生训练机制被训练的
。9.
根据权利要求8所述的方法,还包括:使用所述标记的数据的至少一部分来训练教师模型;以及通过将经训练的所述教师模型应用于所述未标记的数据的至少一部分来生成伪标记信息,其中所述伪标记信息指示所述未标记的数据的所述至少一部分的属性
。10.
根据权利要求9所述的方法,还包括:使用所述标记的数据的所述至少一部分

所述未标记的数据的所述至少一部分以及指示所述未标记的数据的所述至少一部分的属性的所述伪标记信息来训练学生模型
。11.
一种系统,包括:至少一个处理器;以及至少一个存储器,通信地耦合到所述至少一个处理器并且存储指令,所述指令在由所述至少一个处理器执行时使所述系统执行操作,所述操作包括:接收一段音乐的音频数据;基于所述一段音乐的所述音频数据使用模型来确定所述一段音乐的至少一个属性;其中所述模型包括卷积神经网络和变换器;以及其中所述模型是使用训练数据被训练的,所述训练数据包括与第一多个音乐样本相关
联的标记的数据和与第二多个音乐样本相关联的未标记的数据,所述标记的数据包括所述第一多个音乐样本的音频数据和指示所述第一多个音乐样本的属性的标记信息,并且所述未标记的数据包括所述第...

【专利技术属性】
技术研发人员:元民主K
申请(专利权)人:脸萌有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1