【技术实现步骤摘要】
音乐情感识别方法及装置、存储介质和电子设备
本专利技术的实施方式涉及数据处理
,更具体地,本专利技术的实施方式涉及音乐情感识别方法及装置,存储介质和电子设备。
技术介绍
本部分旨在为权利要求中陈述的本专利技术的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。音乐与情感有着非常密切的联系,通过旋律,或者旋律和歌词来表达情感信息。音乐情感识别(MusicEmotionRecognition,MER)技术是利用计算机分析和处理音乐特征,研究音乐特征空间与情感空间的映射关系,实现对音乐所表达情感的认知过程。
技术实现思路
在一些技术中,可以利用基于单模态深度学习的音乐情感识别方法,能够利用音频信息或者歌词信息训练音乐情感识别模型。但其方案仅使用了音乐的音频或歌词信息,而忽略另一方面对情感表达的影响,导致情感识别不够精准。另外,基于多模态的音乐情感识别方法,在模型训练时需要大量的标注样本。但人工标注音乐情感数据集成本高,且耗时严重;标注样本量少又无法保证模型对音乐情感识别的准 ...
【技术保护点】
1.一种音乐情感识别方法,其特征在于,包括:/n获取待识别音乐文件对应的频谱矩阵和文本向量矩阵,将所述频谱矩阵和文本向量矩阵输入多模态网络模型;其中,所述多模态网络模型包括并行的音频处理网络、文本处理网络,以及分类层;/n通过所述音频处理网络对所述频谱特征矩阵进行特征提取以获取音频模态特征,以及通过所述文本处理网络对所述文本向量矩阵进行特征提取以获取文本模态特征;/n通过所述分类层将所述音频模态特征和所述文本模态特征映射至预设的情感类别标签,以获取所述待识别音乐文件对应的情感分类结果。/n
【技术特征摘要】
1.一种音乐情感识别方法,其特征在于,包括:
获取待识别音乐文件对应的频谱矩阵和文本向量矩阵,将所述频谱矩阵和文本向量矩阵输入多模态网络模型;其中,所述多模态网络模型包括并行的音频处理网络、文本处理网络,以及分类层;
通过所述音频处理网络对所述频谱特征矩阵进行特征提取以获取音频模态特征,以及通过所述文本处理网络对所述文本向量矩阵进行特征提取以获取文本模态特征;
通过所述分类层将所述音频模态特征和所述文本模态特征映射至预设的情感类别标签,以获取所述待识别音乐文件对应的情感分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别音乐文件对应的频谱矩阵和文本向量矩阵,包括:
获取待识别音乐文件对应的音频数据及对应的文本数据,并对音频数据及文本数据分别进行预处理,以获取对应的频谱矩阵和文本向量矩阵。
3.根据权利要求2所述的方法,其特征在于,所述频谱矩阵为梅尔频谱矩阵;对所述音频数据进行预处理以获取对应的频谱矩阵,包括:
对所述音频数据进行语音端点检测,以筛选非静默分帧音频数据;
根据筛选的所述非静默分帧音频数据构建所述梅尔频谱矩阵。
4.根据权利要求2所述的方法,其特征在于,对所述文本数据进行预处理以获取所述文本向量矩阵,包括:
对所述文本数据进行分词处理,并根据分词结果构建目标大小的所述文本向量矩阵。
5.根据权利要求1所述的方法,其特征在于,所述通过所述音频处理网络对所述频谱特征矩阵进行特征提取以获取音频模态特征,包括:
利用第一卷积层对所述频谱特征矩阵进行卷积,以获取第一维度频谱特征;
利用第一最大池化层对所述第一维度频谱特征进行降维处理;
利用连续设置的多个卷积层对降维处理后的所述第一维度频谱特征依次进行特征提取,以获取目标维度频谱特征;
利用第二最大池化层对所述目标维度频谱特征进行降维处理,以获取所述音频模态特征。
6....
【专利技术属性】
技术研发人员:赵剑,刘华平,梁晓晶,段振宇,
申请(专利权)人:杭州网易云音乐科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。