一种融合知识图谱的音乐流派分类方法及系统技术方案

技术编号:37118566 阅读:18 留言:0更新日期:2023-04-01 05:13
本发明专利技术公开了一种融合知识图谱的音乐流派分类方法及系统,提取初始音频特征并计算对应的流派预测分数,随后利用图神经网络学习知识图谱中流派之间的关系,将知识图谱与音频特征进行融合得到增强后的音频特征,最终用于自动识别音乐流派。本发明专利技术首次提出利用知识图谱指导音频表征学习,并将其用于流派分类;同时,本发明专利技术利用公开音乐数据集的元数据构建了知识图谱,学习了融合有流派间关系知识的音频特征,并取得了更好的流派分类性能,具有广泛的应用前景。应用前景。应用前景。

【技术实现步骤摘要】
一种融合知识图谱的音乐流派分类方法及系统


[0001]本专利技术属于音乐信号分析与处理
,具体涉及一种融合知识图谱的音乐流派分类方法及系统。

技术介绍

[0002]音乐流派分类可以在许多现实应用中使用,例如音乐流媒体平台可以为特定用户创建更合适的推荐播放列表、用户可以发现与他们喜欢的音乐风格相似的其他音乐等。然而,不同音乐流派之间分类的界限仍然是模糊的,这使得从音频样本中自动识别音乐流派类型(Music Genre Recognition,MGR)成为一项重要的任务。
[0003]相关领域的专家已经提出了一些方法去试图解决这个问题。早期的方法通过探索使用不同输入(即波形或时频谱图)或不同分类器来进行音乐分类,例,使用由多种音频特征(如MFCC、Chroma、Tempogram等)进行重构的自监督学习模型来提高分类性能。最近的研究提出利用相关任务(例如艺术家标签)来获得多层次和多尺度的音乐表征,并利用迁移学习来增强流派分类器。以上解决方案均只使用音频样本作为输入。还有其他的方法使用了额外信息(如歌词、评论等)进行流派分类,例如,使用对音乐内容的自然语言描述来监督学习音频表征,或者结合歌词和音频来提取融合特征进行流派分类。然而,值得注意的是,许多开源数据集或现实任务并没有提供如此详细的信息,这些方法为每段音频获取准确的歌词或描述需要一定的音乐API或搜索引擎的帮助,这是一个非常耗费人力且耗时的过程。

技术实现思路

[0004]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种融合知识图谱的音乐流派分类方法及系统,提出利用知识图谱指导音频表征学习,且无需为每段音频获取对应的额外信息,有效地提高了音乐流派分类性能,用于解决使用侧信息辅助神经网络进行自动音乐流派分类的技术问题。
[0005]本专利技术采用以下技术方案:
[0006]一种融合知识图谱的音乐流派分类方法,包括以下步骤:
[0007]S1、将音频数据转化为梅尔谱图,将梅尔谱图输入音频特征提取网络学习音频表征,同时在音频特征提取网络的最后添加一个线性层获得对每种流派的预测分数;
[0008]S2、构建与流派相关的知识图谱;
[0009]S3、使用步骤S1得到的每种流派的预测分数对步骤S2构建的知识图谱中的流派节点进行初始化,然后使用图神经网络学习每个流派节点的特征向量,并将所有特征向量串联获得最终的知识表征;
[0010]S4、使用SE模块给步骤S1中得到的音频表征和步骤S3得到的知识表征分配不同的注意力权重,然后对加权后的表征进行拼接获得增强后的音频表征,将增强后的音频表征输入全连接层构成音乐流派分类模型,实现音乐流派分类。
[0011]具体的,步骤S1具体为:
[0012]S101、将音频χ裁剪成多个时长为1秒的不重叠片段,并使用librosa库将裁剪后的音频片段转换为128维的梅尔谱图,获得时频表示S;
[0013]S102、将步骤S101得到的时频表示S输入主干网络f(.)学习音频表征Z
a

[0014]S103、在步骤S102中的主干网络f(.)后添加一个线性层g(.),通过对网络g

f进行预训练获得一个C维向量Z
s
,表示网络对每种流派的预测分数,C代表流派的数量。
[0015]进一步的,步骤S102中,主干网络f(.)使用Inception

ResNet

V2的架构。
[0016]具体的,步骤S2中,知识图谱包含实体集和边集;实体集V包含G+A+I个元素,G是音乐流派的数量,A是艺术家的数量,I是乐器的数量;边集E在知识图谱中为连接各个实体之间的边的集合。
[0017]进一步的,知识图谱中的边集E为:
[0018][0019]其中,0
G
×
G
是大小为G
×
G的零矩阵,P
G
×
A
是大小为G
×
A的音乐流派与艺术家的相关概率矩阵,P
G
×
I
是大小为G
×
I的音乐流派与乐器的相关概率矩阵,P
A
×
G
是大小为A
×
G的艺术家与音乐流派的相关概率矩阵,0
A
×
A
是大小为A
×
A的零矩阵,0
A
×
I
是大小为A
×
I的零矩阵,P
I
×
G
是大小为I
×
G的乐器与音乐流派的相关概率矩阵,0
I
×
A
为大小为I
×
A的零矩阵,0
I
×
I
是大小为I
×
I的零矩阵。
[0020]具体的,步骤S3具体为:
[0021]S301、使用零向量初始化艺术家节点A和乐器节点I,使用步骤S1得到的Z
s
初始化对应的流派节点G,初始化后得到每个节点的输入特征x
v

[0022]S302、在一次迭代t时,节点i的隐藏状态h
i
由上一步状态和从其邻居传播的消息决定,经过T次迭代后,消息在整个图中传播,获得所有节点的最终隐藏状态,最后的线性层将输出每个节点的最终特征,将特征拼接得到整个知识图谱的表征Z
KG

[0023]进一步的,步骤S302中,在一次迭代t时,节点i的隐藏状态h
i
由它的最后状态和从其邻居传播的消息决定,具体为:
[0024][0025][0026]其中,是节点i的初始隐藏状态,x
i
是节点i的输入特征,是第t次迭代时节点i的隐藏状态,是第t

1次迭代时节点K的隐藏状态,K是知识图谱中的节点总数,E
i
是一个表示节点i其相邻节点连接关系的矩阵。
[0027]具体的,步骤S4具体为:
[0028]S401、将知识表征Z
KG
与初始音频表征Z
a
输入SE模块中,通过SE模块给知识表征Z
KG
与初始音频表征Z
a
分配不同的注意力权重,自适应确定特征;随后将加权后的特征进行连接,得到音频表征F;
[0029]S402、将步骤S401得到的音频表征F输入音乐流派分类模型进行流派分类。
[0030]进一步的,步骤S402中,使用交叉熵损失训练音乐流派分类模型,交叉熵损失L为:
[0031][0032]其中,是预测流派标签,是真实标签,N是输入的音频样本总数。
[0033]第二方面,本专利技术实施例提供了一种融合知识图谱的音乐流派分类系统,包括:
[0034]学习模块,将音频数据转化为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合知识图谱的音乐流派分类方法,其特征在于,包括以下步骤:S1、将音频数据转化为梅尔谱图,将梅尔谱图输入音频特征提取网络学习音频表征,同时在音频特征提取网络的最后添加一个线性层获得对每种流派的预测分数;S2、构建与流派相关的知识图谱;S3、使用步骤S1得到的每种流派的预测分数对步骤S2构建的知识图谱中的流派节点进行初始化,然后使用图神经网络学习每个流派节点的特征向量,并将所有特征向量串联获得最终的知识表征;S4、使用SE模块给步骤S1中得到的音频表征和步骤S3得到的知识表征分配不同的注意力权重,然后对加权后的表征进行拼接获得增强后的音频表征,将增强后的音频表征输入全连接层构成音乐流派分类模型,实现音乐流派分类。2.根据权利要求1所述的融合知识图谱的音乐流派分类方法,其特征在于,步骤S1具体为:S101、将音频χ裁剪成多个时长为1秒的不重叠片段,并使用librosa库将裁剪后的音频片段转换为128维的梅尔谱图,获得时频表示S;S102、将步骤S101得到的时频表示S输入主干网络f(.)学习音频表征Z
a
;S103、在步骤S102中的主干网络f(.)后添加一个线性层g(.),通过对网络进行预训练获得一个C维向量Z
s
,表示网络对每种流派的预测分数,C代表流派的数量。3.根据权利要求2所述的融合知识图谱的音乐流派分类方法,其特征在于,步骤S102中,主干网络f(.)使用Inception

ResNet

V2的架构。4.根据权利要求1所述的融合知识图谱的音乐流派分类方法,其特征在于,步骤S2中,知识图谱包含实体集和边集;实体集V包含G+A+I个元素,G是音乐流派的数量,A是艺术家的数量,I是乐器的数量;边集E在知识图谱中为连接各个实体之间的边的集合。5.根据权利要求4所述的融合知识图谱的音乐流派分类方法,其特征在于,知识图谱中的边集E为:其中,0
G
×
G
是大小为G
×
G的零矩阵,P
G
×
A
是大小为G
×
A的音乐流派与艺术家的相关概率矩阵,P
G
×
I
是大小为G
×
I的音乐流派与乐器的相关概率矩阵,P
A
×
G
是大小为A
×
G的艺术家与音乐流派的相关概率矩阵,0
A
×
A
是大小为A
×
A的零矩阵,0
A
×
I
是大小为A
×
I的零矩阵,P
I
×
G
是大小为I
×
G的乐器与音乐流派的相关概率矩阵...

【专利技术属性】
技术研发人员:丁菡宋文静赵衰王鸽赵鲲惠维赵季中
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1