基于自注意力机制的情感分类方法技术

技术编号:22330183 阅读:44 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种基于自注意力机制的情感分类方法,以双向长短期记忆神经网络模型为基础,结合自注意力机制构建SA‑BiLSTM模型,SA‑BiLSTM模型共包含五层结构:第一层为输入层,将句子输入到模型中;第二层为词向量构造层,将每个词映射到低维向量;第三层为Bi‑LSTM网络层,使用Bi‑LSTM从词向量层获取高级特征;第四层为自注意力机制层,生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;第五层为输出层,将句子级的特征向量用于情感分类任务。本发明专利技术解决了现有技术中传统情感分类算法大多存在耗时长、训练难、人工成本高的问题。

Emotion classification based on self attention mechanism

【技术实现步骤摘要】
基于自注意力机制的情感分类方法
本专利技术属于自然语言处理、数据挖掘
,具体涉及一种基于自注意力机制的情感分类方法。
技术介绍
注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类往往根据需求忽略部分可见信息,只关注信息特定的一部分。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它,从而筛选出有价值的信息,视觉注意力机制极大的提高了人类处理视觉信息的效率。深度学习中的注意力机制借鉴了人类视觉注意力机制的思维方式,核心目标是从大量数据中快速筛选出高价值的信息。近年来,注意力模型在图像处理、语音识别、自然语言处理等领域被广泛使用。2017年谷歌提出的自注意力机制为人们提供了一种用注意力机制完全替代传统卷积神经网络和循环神经网络结构的新思路。之后自注意力机制开始成为神经网络注意力机制的研究热点。自注意力机制可以看作是注意力机制的一种特殊情况,能够把输入序列上不同位置的信息联系起来,然后计算出整条序列的表达。在文本情感分类任务中引入自注意力机制能够学习到句子内部的词依赖关系,捕获句子的内部结构。
技术实现思路
本专利技术的目的是提供一种基于自注意力机制的情感分类方法,解决了现有技术中传统情感分类算法大多基于浅层的机器学习,采用人工设计的特征选择方法进行特征提取,存在耗时长、训练难、人工成本高的问题。本专利技术所采用的技术方案是,基于自注意力机制的情感分类方法,具体按照以下步骤实施:以双向长短期记忆神经网络模型为基础,结合自注意力机制构建SA-BiLSTM模型,SA-BiLSTM模型共包含五层结构:第一层为输入层,将句子输入到模型中;第二层为词向量构造层,将每个词映射到低维向量;第三层为Bi-LSTM网络层,使用Bi-LSTM从词向量层获取高级特征;第四层为自注意力机制层,生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;第五层为输出层,将句子级的特征向量用于情感分类任务。本专利技术的特点还在于,SA-BiLSTM模型的为词向量构造层具体功能如下:对于给定包含T个词的句子S:S=X1,X2,...,XT,每个词Xi都转换为实数向量wi,对于S中的每个词,首先存在词向量矩阵:其中V为固定大小的词汇表,dw表示词向量维度,Wk表示通过训练学习得到的参数矩阵,使用词向量矩阵Wk将每个词转化为词向量表示如下:ci=Wkvi其中,vi表示大小为|V|的one-hot向量,最终句子S将被转化为一个实数矩阵,并传递给模型的下一层。SA-BiLSTM模型的Bi-LSTM网络层具体功能如下:本模型使用的Bi-LSTM网络层包含三种门机制,分别如下:a.遗忘门ft,决定丢弃多少旧信息:ft=σ(Wfxt+Ufht-1+bf)b.输入门ct,决定单元状态中存储哪些新信息:it=σ(Wixt+Uiht+bi)ct=ftct-1+it·Tanh(Wcxt+Ucht-1+bc)c.输出门ot,决定哪些信息被输出:ot=σ(Woxt+Uoht-1+bo)最后,由当前单元状态乘以输出门的权重矩阵ot得到输出值ht:ht=otthanh(ct)由于本模型采用的是双向LSTM,在原有正向LSTM网络层上添加一层反向LSTM层表示为:hi表示Bi-LSTM网络层的输出。SA-BiLSTM模型的自注意力机制层具体功能如下:将上一层输入的向量集合表示为H:[h1,h2,...,hT],其自注意力机制层的权重矩阵r由下面公式得到:M=tanh(H)α=softmax(wTM)r=HαT其中,dw为词向量维度,wT是一个训练学习得到的参数向量的转置,最终用以分类的句子将表示为:h*=tanh(r)。SA-BiLSTM模型的输出层具体功能如下:使用softmax分类器来预测标签该分类器将上一层得到的状态h*作为输入,最终得到文本情感极性分类类别,其中,y表示真实类别的概率,表示预测类别的概率,的值大于50%为积极情感倾向,的值小于50%为消极情感倾向。本专利技术的有益效果是,基于自注意力机制的情感分类方法,以Bi-LSTM模型为基础,结合自注意力机制设计的SA-BiLSTM模型来解决情感分类问题。SA-BiLSTM模型共包含五层结构:第一层为输入层,将句子输入到模型中;第二层为词向量构造层,将每个词映射到低维向量;第三层为Bi-LSTM网络层,使用Bi-LSTM从词向量层获取高级特征;第四层为自注意力机制层,生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;第五层为输出层,将句子级的特征向量用于情感分类任务。附图说明图1是本专利技术基于自注意力机制的情感分类方法中注意力机制三阶段计算过程图;图2是本专利技术基于自注意力机制的情感分类方法中SA-BiLSTM网络模型框架图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术基于自注意力机制的情感分类方法,具体按照以下步骤实施:以双向长短期记忆神经网络模型为基础,结合自注意力机制构建SA-BiLSTM模型,SA-BiLSTM模型共包含五层结构:第一层为输入层,将句子输入到模型中;第二层为词向量构造层,将每个词映射到低维向量;第三层为Bi-LSTM网络层,使用Bi-LSTM从词向量层获取高级特征;第四层为自注意力机制层,生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;第五层为输出层,将句子级的特征向量用于情感分类任务。其中,SA-BiLSTM模型的为词向量构造层具体功能如下:对于给定包含T个词的句子S:S=X1,X2,...,XT,每个词Xi都转换为实数向量wi,对于S中的每个词,首先存在词向量矩阵:其中V为固定大小的词汇表,dw表示词向量维度,Wk表示通过训练学习得到的参数矩阵,使用词向量矩阵Wk将每个词转化为词向量表示如下:ci=Wkvi其中,vi表示大小为|V|的one-hot向量,最终句子S将被转化为一个实数矩阵,并传递给模型的下一层。SA-BiLSTM模型的Bi-LSTM网络层具体功能如下:为解决循环神经网络中梯度消失问题,LSTM模型引入门机制,能控制每一个LSTM单元保留历史信息的程度并记忆当前的输入,提取重要特征,本模型使用的Bi-LSTM网络层包含三种门机制,分别如下:a.遗忘门ft,决定丢弃多少旧信息:ft=σ(Wfxt+Ufht-1+bf)b.输入门ct,决定单元状态中存储哪些新信息:it=σ(Wixt+Uiht+bi)ct=ftct-1+it·Tanh(Wcxt+Ucht-1+bc)c.输出门ot,决定哪些信息被输出:ot=σ(Woxt+Uoht-1+bo)最后,由当前单元状态乘以输出门的权重矩阵ot得到输出值ht:ht=otthanh(ct)由于本模型采用的是双向LSTM,在原有正向LSTM网络层上添加一层反向LSTM层表示为:hi表示Bi-LSTM网络层的输出。SA-BiLSTM模型的自注意力机制层具体功能如下:将上一层输入的向量集合表示为H:[h1,h2,...,hT],其自注意力机制层的权重矩阵r由下面公式得到:M=tanh(H)α=softmax(wTM)r=HαT其中,dw为词向量维度,wT是一个训练学本文档来自技高网...

【技术保护点】
1.基于自注意力机制的情感分类方法,其特征在于,具体按照以下步骤实施:以双向长短期记忆神经网络模型为基础,结合自注意力机制构建SA‑BiLSTM模型,SA‑BiLSTM模型共包含五层结构:第一层为输入层,将句子输入到模型中;第二层为词向量构造层,将每个词映射到低维向量;第三层为Bi‑LSTM网络层,使用Bi‑LSTM从词向量层获取高级特征;第四层为自注意力机制层,生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;第五层为输出层,将句子级的特征向量用于情感分类任务。

【技术特征摘要】
1.基于自注意力机制的情感分类方法,其特征在于,具体按照以下步骤实施:以双向长短期记忆神经网络模型为基础,结合自注意力机制构建SA-BiLSTM模型,SA-BiLSTM模型共包含五层结构:第一层为输入层,将句子输入到模型中;第二层为词向量构造层,将每个词映射到低维向量;第三层为Bi-LSTM网络层,使用Bi-LSTM从词向量层获取高级特征;第四层为自注意力机制层,生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;第五层为输出层,将句子级的特征向量用于情感分类任务。2.根据权利要求1所述的基于自注意力机制的情感分类方法,其特征在于,所述SA-BiLSTM模型的为词向量构造层具体功能如下:对于给定包含T个词的句子S:S=X1,X2,...,XT,每个词Xi都转换为实数向量wi,对于S中的每个词,首先存在词向量矩阵:其中V为固定大小的词汇表,dw表示词向量维度,Wk表示通过训练学习得到的参数矩阵,使用词向量矩阵Wk将每个词转化为词向量表示如下:ci=Wkvi其中,vi表示大小为|V|的one-hot向量,最终句子S将被转化为一个实数矩阵,并传递给模型的下一层。3.根据权利要求2所述的基于自注意力机制的情感分类方法,其特征在于,所述SA-BiLSTM模型的Bi-LSTM网络层具体功能如下:本模型使用的Bi-LSTM网络层包含三种门机制,分别如下:a.遗忘门ft,决定丢...

【专利技术属性】
技术研发人员:姚全珠祝元博费蓉赵佳瑜吕鹏
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1