【技术实现步骤摘要】
基于注意力的音频和歌词的多模态音乐风格分类方法
本专利技术涉及音乐风格分类
,具体地说,涉及一种基于注意力的音频和歌词的多模态音乐风格分类方法。
技术介绍
音乐风格分类是音乐信息检索和音乐推荐当中的重要一环。随着当今互联网技术和数字多媒体的飞速发展,对音乐风格分类效率的要求也越来越高。但是现在的音乐风格分类技术只用音频特征并不能完整的表示音乐风格,歌词包含的语义信息也部分代表这歌曲的风格,所以还需要将歌词内容考虑进去。而且融合音频和歌词两个方面的信息的技术较少,主要的问题就是对歌词的处理难度较大。一般的歌词处理方法,比如BOW(词袋)、Word2Vec(词向量),都不能获取句子的上下文语义信息。但是对歌词来说,上下文的语义信息对音乐风格具有重要意义。对于音频和歌词融合技术来说,目前使用的是基于简单操作的融合,比如特征级别的拼接和决策级别的加权,这些操作只是相当于对子分类器进行了简单的集成,并没有真正做到音频和歌词信息的融合,对融合结果的提升较小。因此,基于音频和歌词的多模态音乐风格分类技术还有待提升。专 ...
【技术保护点】
1.基于注意力的音频和歌词的多模态音乐风格分类方法,其特征在于:包括以下步骤:/n一、数据获取:获取音频和歌词对应的数据集;/n二、音频预处理:先对音频数据采取Mel频谱特征提取,然后经过CNN网络进一步得到音频特征;/n三、歌词预处理:先进行BERT预训练得到单词的词向量,然后经过HAN网络得到歌词特征向量;/n四、attention模间融合:通过Attention模间融合,将获取的音频和歌词特征,进行交互融合获取融合的Attention注意力向量,再与音频和歌词特征向量拼接,获得包含音频和歌词各自模态特征,以及模态间融合特征的音乐风格特征;/n五、经过softmax层进行分类。/n
【技术特征摘要】
1.基于注意力的音频和歌词的多模态音乐风格分类方法,其特征在于:包括以下步骤:
一、数据获取:获取音频和歌词对应的数据集;
二、音频预处理:先对音频数据采取Mel频谱特征提取,然后经过CNN网络进一步得到音频特征;
三、歌词预处理:先进行BERT预训练得到单词的词向量,然后经过HAN网络得到歌词特征向量;
四、attention模间融合:通过Attention模间融合,将获取的音频和歌词特征,进行交互融合获取融合的Attention注意力向量,再与音频和歌词特征向量拼接,获得包含音频和歌词各自模态特征,以及模态间融合特征的音乐风格特征;
五、经过softmax层进行分类。
2.根据权利要求1所述的基于注意力的音频和歌词的多模态音乐风格分类方法,其特征在于:步骤一中,根据metrolyrics数据集中的歌手和歌名信息,检索并下载对应歌曲,实现批量下载;根据歌曲的编号将相应的歌词数据与歌曲的数据组合在一起,获取歌词和歌曲对应的数据集。
3.根据权利要求1所述的基于注意力的音频和歌词的多模态音乐风格分类方法,其特征在于:步骤二中,Mel频谱特征提取的参数如下:
音频数据的采样率是22.5Hz,对音频信号以12Hz进行下采样;
帧长21ms;
短时傅里叶N_FFT=512;
帧移HOP_LEN=256;
梅尔尺度mel_scale=125;
梅尔频谱数N_MELS=96;
一首歌的音频特征大小是(96,1366)。
4.根据权利要求1所述的基于注意力的音频和歌词的多模态音乐风格分类方法,其特征在于:步骤二中,CNN网络结构为:网络有5个3x3核的卷积层和4个池化层,然后接一个全连接层,输出张量维度为64,使每首歌的特征变成一个64维的向量。
5.根据权利要求1所述的基于注意力的音频和歌词的多模态音乐风格分类方法,其特征在于:步骤三中,BERT预训练模型参数为:
uncasedBERT-base(12-layer,768-hidden,12-heads);
忽略大小写的BERT基础模型(12个Encoder解码层,768个隐...
【专利技术属性】
技术研发人员:李优,张志海,常亮,林煜明,周娅,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。