基于层次注意力机制的歌词情感分类方法技术

技术编号:33290437 阅读:34 留言:0更新日期:2022-05-01 00:08
本发明专利技术公开了基于层次注意力机制的歌词情感分类方法,使用层次注意力机制提取歌词段落间的结构特征,以关注歌词不同段落之间语义的差异。在层次注意力机制的基础上融入歌词的情感强度特征,以捕捉歌词不同段落之间情感强度的变化。本发明专利技术使用层次注意力机制对歌词进行层次化的信息提取,设计了基于词级别的注意力机制和基于段落的注意力机制,提取歌词不同段落的结构和语义特征,更好的关注到段落之间语义的差异,改善了现有的歌词情感分类方法没有考虑到歌词结构特征的缺陷,为情感强度高的词语和段落赋予了更高的关注度,使模型关注到段落间情感强度的变化,提升情感分类的效果。提升情感分类的效果。提升情感分类的效果。

【技术实现步骤摘要】
基于层次注意力机制的歌词情感分类方法


[0001]本专利技术涉及深度学习自然语言处理
,具体涉及一种基于层次注意力机制的中文歌曲情感分类方法,可用于中文歌曲的情感分类任务中,能够为音乐检索、音乐推荐、音乐组织和音乐治疗任务所服务。

技术介绍

[0002]音乐是日常生活中不可或缺的多媒体资源,海量音乐作品的组织和检索问题受到专家学者的广泛关注,并逐渐成为研究热点。音乐中包含了丰富的情感信息,基于情感进行分类能够有效提高音乐检索的效率。音乐中可以提取到音频和歌词两种模态的信息,基于音频的音乐情感分类方法通过提取时域与频域音频特征来进行分类,然而目前的技术很难使音乐情感识别的性能得到进一步提升。歌词是音乐的重要组成部分,比音频数据更容易获得和处理,歌词中不仅包含了语义信息,也包含了丰富的情感信息,使用歌词进行情感分类可以提升音乐情感分类的性能。
[0003]早期的歌词情感分类,研究者大多使用构建情感词典、建立情感向量空间模型的方式进行,这种方法以歌词中的情感词作为情感极性的判断依据,忽略了歌词的整体语义信息。近年来研究者将深度学习方法应本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于层次注意力机制的歌词情感分类方法,其特征在于:包括以下步骤:步骤一:数据集的建立;中文歌曲领域缺乏公开数据集,通过网络爬虫技术在音乐网站爬取歌词,构建中文歌词的数据集;按照VA情感模型进行情感极性标注,通过音乐网站的歌单标签作为情感极性标注的依据;步骤二:歌词编码;将数据集中的歌词进行分段,对段落中的词语进行词嵌入编码,获得词语的向量表示;然后将词向量依次拼接,构成歌词段落的向量表示;步骤三:词注意力机制;歌词段落中不同词语对于情感极性判定的重要程度不同,词注意力层用来学习词语的重要性权重;使用词注意力机制,对步骤二得到的歌词段落编码进行上下文学习以获取词语的注意力权重;计算情感词的情感强度特征,将情感词的情感强度特征与词注意力权重结合,作为段落中词语的最终权重;将词语特征向量与权重加权求和,得到段落的向量表示;步骤四:段落注意力机制;对歌词的每一段落进行步骤三的特征向量编码,使用段落注意力机制对段落特征向量进行上下文学习,为每一段落赋予权重,表示对情感极性判定的重要性;然后计算每一段落的情感强度特征,将每一段落的情感强度特征与注意力权重结合,以捕捉段落间情感强度的变化;最后,将段落特征向量与段落权重加权求和,得到整首歌词的特征向量;步骤五:情感分类;使用softmax函数作为情感分类器,对步骤四得到的歌词特征向量进行有监督的情感分类训练;最终生成中文歌曲情感分类器,用来对歌词进行情感极性的判定。2.根据权利要求1所述的基于层次注意力机制的歌词情感分类方法,其特征在于:步骤一中,构建中文歌词数据集,通过网络爬虫技术在互联网各大音乐网站爬取中文歌词共1851首,按照VA情感模型进行情感极性标注,通过音乐网站的歌单标签作为情感极性标注的依据,并通过多名音乐人士进行校对;训练集、验证集合、测试集按照8:1:1的比例进行划分。3.根据权利要求1所述的基于层次注意力机制的歌词情感分类方法,其特征在于:步骤二中,歌词编码层用来对分段后的歌词进行特征向量编码;首先,对段落中的词语进行词嵌入编码,获取词语的向量表示;然后将每个词向量依次拼接,构成段落的向量表示;最后,使用双向长短期记忆网络BiLSTM进行序列化处理,学习上下文之间的语义关联;词向量表示指的是将词语转换为计算机理解的数值或矩阵;歌词的段落较长,使用BiLSTM进行文本的序列化处理;BiLSTM由前向和后向LSTM组成,实现文本从前向后以及从后向前编码,关注到文本上下文之间的关联;对于一段歌词P=[x1,x2,

,x
i
,

,x
n
],其中,χ
i
表示段落中词语的词向量编码,i∈(1,n),n为歌词长度;使用BiLSTM分别对歌词进行从前向后以及从后向前学习,获取前向与后向的编码并整合,得到歌词段落的初始特征向量,计算过程如式(1)

式(4)所示;式(4)所示;式(4)所示;
h=[h1,h2,...,h
i
,...,h
n
] (4)其中,表示前向LSTM,表示后向LSTM,表示t时刻前向LSTM单元的隐藏层输出,表示t时刻后向LSTM单元的隐藏层输出,将二者拼接后得到t时刻对应的第i个词语的输出向量h
i
,将所有时刻的输出拼接,得到歌词段落的特征向量h。4.根据权利要求1所述的基于层次注意力机制的歌词情感分类方法,其特征在于:步骤三中,词注意力机制通过对歌词段落的序列化学习,来获取词语对于情感极性判定的重要性权重;首先使用BiLSTM分别进行从前向后以及从后向前学习,获取前向与后向编码并整合;然后将BiLSTM的输出经过一层全连接层的处理得到每一时刻的状态向量u
i
,如式(5)所示;u
i
=tanh(W
t
h
i
+b
t
) (5)其中,h
i
表示第i个词语对应的BiLSTM的输出向量,对h
i
经过线性函数处理后,再通过激活函数tanh将值映射到[

1,1]之间,W
t
和b
t
为模型的训练参数;为了得到每个词语对于整个段落的重要性,将状态向量u
i
经过线性函数处理后再通过softmax函数进行归一化处理,得到第i个词语的权重值α
i
,如式(6)所示;其中,u
i
为通过式(5)计算得到的第i个词语的状态向量,为u
i
的转置,W
w1
和W
w2
为模型的训练参数;歌词中情感词的情感强度对分类结果起重要作用,将词注意力权重与情感强度特征相结合,使模型更关注于情感强度高的词语;设计一种基于tf

idf规则的情感词情感强度计算方法,使用情感词的词频、语义相似度、情感极性特征共同计算情感强度;idf表示逆向文件频率,用来评估某个词语对于区分特定歌词和其他歌词的重要性;tf的计算如式(7)

(8)所示:所示:其中,对于词ω
i
,C
i
表示ω
i
情感极性与整句歌词的情感极性是否一致,p
i
表示词频,n为段落中词语数目,s
i
表示语义相似度,语义相似度指...

【专利技术属性】
技术研发人员:杜潇王洁
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1