一种基于多模态的音乐分类方法、系统及存储介质技术方案

技术编号:32485914 阅读:22 留言:0更新日期:2022-03-02 09:51
本发明专利技术公开了一种基于多模态的音乐分类方法、系统及存储介质,涉及音乐分析技术领域,本发明专利技术首先从目标音乐中获取音频数据和歌词数据,进而获取词向量、音频高层特征、乐器种类等数据,同时结合权重信息,得到第一权重统计值、第二权重统计值、第三权重统计值,将所述各个统计值进行归一化处理和分类求和,得到第四权重统计值,依据所述第四权重统计值,即可得到目标音乐的分类结果。本发明专利技术采用基于词向量、音频高层特征、乐器种类的多模态分类方法,综合考虑目标音乐中的各种因素和所占权重,最终得到了更加准确的分类结果。终得到了更加准确的分类结果。终得到了更加准确的分类结果。

【技术实现步骤摘要】
一种基于多模态的音乐分类方法、系统及存储介质


[0001]本专利技术涉及音乐分析
,更具体的说是涉及一种基于多模态的音乐分类方法、系统及存储介质。

技术介绍

[0002]自上个世纪70年代以来,电子音乐的风格种类不断增加,维基百科至今已收录超过200种细分类型,海量的电子音乐亟待通过分类改善数据库的管理,以及实现更多用户化的行为,如音乐检索,音乐推荐等。
[0003]而进行音乐检索、音乐推荐等行为的基础,是将录入的音乐进行准确细分类。目前对音乐进行分类的方法一般采用神经网络模型或分类器进行分类,分类结果不够精确,并没有很好地融合音乐中的歌词、音频等多项因素,分类准确率不高。
[0004]基于此,如何提供一种分类更精确的音乐分类方法,是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于多模态的音乐分类方法、系统及存储介质。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于多模态的音乐分类方法,包括以下步骤:
[0008]步骤1、获取目标音乐的音频数据和歌词数据;
[0009]步骤2、依据所述歌词数据,获取第一权重统计值;
[0010]步骤2.1、对所述歌词数据进行分词,得到歌词数据中的词向量;
[0011]步骤2.2、使用循环神经网络,基于自注意力机制和上下文语境,确定词向量的权重;
[0012]步骤2.3、使用分类器获取词向量的情感类别;
[0013]步骤2.4、依据词向量的权重和情感类别,对相同情感类别的词向量权重进行求和,得到基于词向量的不同情感类别的权重统计值,作为第一权重统计值;
[0014]步骤3、依据所述音频数据,获取第二权重统计值;
[0015]步骤3.1、对所述音频数据进行音频高层特征提取;
[0016]步骤3.2、将音频高层特征输入随机森林分类器,依据决策树得到的不同情感类别结果节点个数作为不同情感类别的权重,即得到基于音频高层特征的不同情感类别的权重统计值,作为第二权重统计值;
[0017]步骤4、依据所述音频数据,获取第三权重统计值;
[0018]步骤4.1、对所述音频数据进行乐器识别;
[0019]步骤4.2、获取乐器对应的情感类别;
[0020]步骤4.3、获取乐器弹奏的持续时间,作为乐器的权重;
[0021]步骤4.4、依据乐器的权重和情感类别,得到基于乐器的不同情感类别的权重统计
值,作为第三权重统计值;
[0022]步骤5、分别对所述第一权重统计值、所述第二权重统计值、所述第三权重统计值进行归一化;
[0023]步骤6、将归一化后的第一权重统计值、第二权重统计值、第三权重统计值中相同情感类别的权值进行求和,得到第四权重统计值;
[0024]步骤7、依据所述第四权重统计值,得到目标音乐的分类结果。
[0025]可选的,所述步骤2.2中,使用循环神经网络学习词向量的上下文信息,并结合自注意力机制,获取词向量的权重。
[0026]可选的,所述步骤2.3中,使用分类器之前,对分类器进行训练,具体步骤为:
[0027]获取不同音乐中歌词数据的词向量,并为词向量设置情感标签;
[0028]使用带有情感标签的词向量训练分类器。
[0029]可选的,所述分类器为SVM分类器或CNN分类器。
[0030]可选的,所述步骤4.1中,基于所述音频数据的音高特征矩阵和基于音色的常数Q变换矩阵,识别乐器种类。
[0031]可选的,所述步骤4.2中,从预设的乐器库中获取乐器对应的情感类别;
[0032]所述乐器库中包括每种乐器所对应的情感类别。
[0033]可选的,所述步骤7中,依据所述第四权重统计值,得到目标音乐的一个或多个分类结果。
[0034]本专利技术还公开一种基于多模态的音乐分类系统,包括:
[0035]数据提取模块,用于获取目标音乐的音频数据和歌词数据;
[0036]第一权重统计值获取模块,用于依据所述歌词数据,获取第一权重统计值;
[0037]第二权重统计值获取模块,用于依据所述音频数据,获取第二权重统计值;
[0038]第三权重统计值获取模块,用于依据所述音频数据,获取第三权重统计值;
[0039]归一化模块,用于分别对所述第一权重统计值、所述第二权重统计值、所述第三权重统计值进行归一化;
[0040]第四权重统计值获取模块,用于将归一化后的第一权重统计值、第二权重统计值、第三权重统计值中相同情感类别的权值进行求和,得到第四权重统计值;
[0041]分类结果获取模块,用于依据所述第四权重统计值,得到目标音乐的分类结果。
[0042]一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项所述的一种基于多模态的音乐分类方法的步骤。
[0043]经由上述的技术方案可知,本专利技术公开提供了一种基于多模态的音乐分类方法、系统及存储介质,与现有技术相比,具有以下有益效果:
[0044](1)本专利技术从目标音乐中获取音频数据和歌词数据,进而获取词向量、音频高层特征、乐器种类等数据,同时结合权重信息,得到第一权重统计值、第二权重统计值、第三权重统计值,将所述各个统计值进行归一化处理和分类求和,得到第四权重统计值,依据所述第四权重统计值,即可得到目标音乐的分类结果。本专利技术采用基于词向量、音频高层特征、乐器种类的多模态分类方法,综合考虑目标音乐中的各种因素和所占权重,最终得到更加准确的分类结果。
[0045](2)进一步的,本专利技术还基于自注意力机制和循环神经网络学习上下文预警,确定
词向量在整个歌词数据中所占权重,而不仅仅是以词向量的个数作为权重。本专利技术的方法能够使得到词向量的权重值更加科学、准确,为后续分类提供准确基础。
附图说明
[0046]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0047]图1为本专利技术的方法步骤流程图;
[0048]图2为本专利技术的系统结构示意图。
具体实施方式
[0049]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0050]本专利技术实施例公开了一种基于多模态的音乐分类方法,参见图1,包括以下步骤:
[0051]步骤1、获取目标音乐的音频数据和歌词数据;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的音乐分类方法,其特征在于,包括以下步骤:步骤1、获取目标音乐的音频数据和歌词数据;步骤2、依据所述歌词数据,获取第一权重统计值;步骤2.1、对所述歌词数据进行分词,得到歌词数据中的词向量;步骤2.2、使用循环神经网络,基于自注意力机制和上下文语境,确定词向量的权重;步骤2.3、使用分类器获取词向量的情感类别;步骤2.4、依据词向量的权重和情感类别,对相同情感类别的词向量权重进行求和,得到基于词向量的不同情感类别的权重统计值,作为第一权重统计值;步骤3、依据所述音频数据,获取第二权重统计值;步骤3.1、对所述音频数据进行音频高层特征提取;步骤3.2、将音频高层特征输入随机森林分类器,依据决策树得到的不同情感类别结果节点个数作为不同情感类别的权重,即得到基于音频高层特征的不同情感类别的权重统计值,作为第二权重统计值;步骤4、依据所述音频数据,获取第三权重统计值;步骤4.1、对所述音频数据进行乐器识别;步骤4.2、获取乐器对应的情感类别;步骤4.3、获取乐器弹奏的持续时间,作为乐器的权重;步骤4.4、依据乐器的权重和情感类别,得到基于乐器的不同情感类别的权重统计值,作为第三权重统计值;步骤5、分别对所述第一权重统计值、所述第二权重统计值、所述第三权重统计值进行归一化;步骤6、将归一化后的第一权重统计值、第二权重统计值、第三权重统计值中相同情感类别的权值进行求和,得到第四权重统计值;步骤7、依据所述第四权重统计值,得到目标音乐的分类结果。2.根据权利要求1所述的一种基于多模态的音乐分类方法,其特征在于,所述步骤2.2中,使用循环神经网络学习词向量的上下文信息,并结合自注意力机制,获取词向量的权重。3.根据权利要求1所述的一种基于多模态的音乐分类方法,其特征在于,所述步骤2.3中,使用分类...

【专利技术属性】
技术研发人员:刘向丽
申请(专利权)人:淄博职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1