当前位置: 首页 > 专利查询>福州大学专利>正文

基于图卷积神经网络的视角级文本情感分类方法及系统技术方案

技术编号:30789944 阅读:44 留言:0更新日期:2021-11-16 07:52
本发明专利技术涉及一种基于图卷积神经网络的视角级文本情感分类系统及方法,包括:文本预处理模块,用于对视角级文本进行特征化处理;文本语义信息获取模块,用于捕获文本的双向语义依赖关系;注意力编码模块,用于捕获文本单词序列的全局内部相关性,并进行进一步信息整合;图卷积神经网络模块,将GCN直接作用于句子依存关系树来建模句子结构,可将上下文和依赖信息从观点词传播到视角词;情感类别输出模块,用分类函数得到文本最终的情感分类结果。本发明专利技术可以有效发挥图卷积网络的作用,能够利用图卷积神经网络通过语义依赖树来建模句子结构,得到更好的文本情感特征表示。得到更好的文本情感特征表示。得到更好的文本情感特征表示。

【技术实现步骤摘要】
基于图卷积神经网络的视角级文本情感分类方法及系统


[0001]本专利技术涉及文本分析领域,具体涉及一种基于图卷积神经网络的视角级文本情感分类方法及系统。

技术介绍

[0002]以往的情感分析对象以句子或文档为主,并取得了很好的成果,但是在真实的应用场景中一段文本的情感简单使用(积极、消极和中立)无法准确表达文本的真实情感。以评论“这个手机价格很便宜,但是像素不高”为例,该评论是对一个手机进行了整体描述,但是从文档级或句子级做情感分析,无法判别评论的情感极性。视角级文本情感分析是情感分析中的一项细粒度任务,旨在研究每个视角词在文本中所表达的情感极性。上述评论对于两个不同的视角词“价格”和“像素”,所表现出来的情感极性分别是积极和消极。视角级文本情感分析可以准确把握用户针对不同方面的情感信息,能够提供比文档级或句子级更全面、更深入的分析。于是视角级文本情感分析逐渐受到了广泛关注,成为研究热点之一。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于图卷积神经网络的视角级文本情感分类方法及系统,能够对视角级文本进行特征化处理,并从文本中提取语义特征,然后通过多层图卷积神经网络,得到最终的分类结果。
[0004]为实现上述目的,本专利技术采用如下技术方案:
[0005]一种基于图卷积神经网络的视角级文本情感分类方法,包括以下步骤:
[0006]步骤S1:获取待分类文本数据,并进行预处理;
[0007]步骤S2:采用BiLSTM捕获预处理后文本数据的双向语义依赖关系;
[0008]步骤S3:采用多头自注意力机制来捕获文本单词序列的全局内部相关性,并通过逐点卷积变换,进一步进行信息整合;
[0009]步骤S4:将GCN直接作用于句子依存关系树来建模句子结构,将视角词附近的知识信息聚合到视角词,再屏蔽掉非视角词的隐藏状态向量,通过平均池化操作来保留视角词向量中的信息,得到最终的文本情感特征向量表示;
[0010]步骤S5:采用softmax函数对得到的最终的文本情感特征向量表示进行处理,将概率最大的类别作为该文本表示的情感类别预测值。
[0011]进一步的,所述步骤S1具体为:
[0012]步骤S11:对待分类文本数据进行分词处理,接着通过Glove将文本数据从文本形式映射成低维稠密向量;
[0013]步骤S12:采用斯坦福的句法分析器对文档中的句子进行依存句法分析并进行词性标注;
[0014]步骤S13:将通过Glove得到的词嵌入向量与词性标签嵌入向量以及位置嵌入向量拼接起来作为初始文本向量。
[0015]进一步的,所述步骤S3具体为:通过以下公式计算多头自注意力机制的输出H
intra

[0016]H
intra
=MHA(H
*
,H
*
);
[0017][0018][0019]式中,H
*
表示BiLSTM的输出,;表示向量连接,表示第i个注意力头的输出,W
mh
表示待学习的权重参数矩阵;
[0020]通过以下公式计算注意力头的输出:
[0021]Attention(k,q)=softmax(f
s
(k,q))k;
[0022]f
s
(k
i
,q
j
)=tanh([k
i
;q
j

W
att
);
[0023]式中,f
s
表示学习k
i
和q
j
之间语义相关性的得分函数,W
att
表示待学习的权重参数矩阵;
[0024]逐点卷积变换(PCT)可以变换多头自注意力收集到的上下文信息;逐点卷积变换的计算公式如下:
[0025][0026]式中,σ(
·
)表示ELU激活函数,*表示卷积运算,表示两个卷积核待学习的权重参数矩阵,表示两个卷积核待学习的权重参数向量;
[0027]将逐点卷积变换应用于多头自注意力的输出H
intra
,得到向量表示H
c

[0028]H
c
=PCT(H
intra
);
[0029][0030]进一步的,所述步骤S4具体为:将GCN直接作用于句子依存关系树来建模句子结构,可将上下文和依赖信息从观点词传播到视角词;
[0031]设任意句子的依存关系树G都表示为n*n的邻接矩阵A,若节点i到节点j有边,则A
ij
=1,否则A
ij
=0;再者将每个单词都设置为与其自身相邻,即A
ii
=1;如图3所示为句子的邻接矩阵示例,邻接矩阵为二维对称矩阵,行和列的长度为句子的长度;
[0032]单个节点嵌入更新计算公式如下所示:
[0033][0034]其中,
[0035]c
i
=1/d
i

[0036][0037]式中,A
ij
表示句子的邻接矩阵,d
i
表示节点i的度数,c
i
表示归一化常数,表示ReLU激活函数,表示节点j在第k层GCN的隐藏向量表示,W
(k)
表示第k层GCN待学习的权重参数矩阵,b
(k)
表示第k层GCN待学习的权重参数向量。注意,GCN的初始输入为注意
力编码模块的输出向量,表示节点i在第k层的最终输出;
[0038]进一步屏蔽掉非视角词的隐藏状态向量,
[0039]计算公式如下所示:
[0040][0041][0042]式中,t表示视角词的位置,m表示视角词的长度,n表示句子长度。
[0043]再通过平均池化操作来保留视角词向量中大部分信息,得到最终的文本情感特征向量表示h
a
,计算公式如下所示:
[0044][0045]式中,f(
·
)表示平均池化函数。
[0046]进一步的,所述步骤S5具体为:采用softmax函数对最终的文本情感特征向量表示h
a
进行处理,将概率最大的类别作为对应文本表示的情感类别预测值,计算公式如下:
[0047]y=softmax(W
o
h
a
+b
o
);
[0048]式中,y表示情感类别预测值,W
o
表示需要学习的权重参数矩阵,b
o
表示需要学习的权重参数向量。
[0049]一种基于图卷积神经网络的视角级文本情感分类系统,包括:
[0050]文本预处理模块,用于对视角级文本进行特征化处理;
[0051]文本语义信息获取模块,用于捕获文本的双向语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积神经网络的视角级文本情感分类方法,其特征在于,包括以下步骤:步骤S1:获取待分类文本数据,并进行预处理;步骤S2:采用BiLSTM捕获预处理后文本数据的双向语义依赖关系;步骤S3:采用多头自注意力机制来捕获文本单词序列的全局内部相关性,并通过逐点卷积变换,进一步进行信息整合;步骤S4:将GCN直接作用于句子依存关系树来建模句子结构,将视角词附近的知识信息聚合到视角词,再屏蔽掉非视角词的隐藏状态向量,通过平均池化操作来保留视角词向量中的信息,得到最终的文本情感特征向量表示;步骤S5:采用softmax函数对得到的最终的文本情感特征向量表示进行处理,将概率最大的类别作为该文本表示的情感类别预测值。2.根据权利要求1所述的基于图卷积神经网络的视角级文本情感分类方法,其特征在于,所述步骤S1具体为:步骤S11:对待分类文本数据进行分词处理,接着通过Glove将文本数据从文本形式映射成低维稠密向量;步骤S12:采用斯坦福的句法分析器对文档中的句子进行依存句法分析并进行词性标注;步骤S13:将通过Glove得到的词嵌入向量与词性标签嵌入向量以及位置嵌入向量拼接起来作为初始文本向量。3.根据权利要求1所述的基于图卷积神经网络的视角级文本情感分类方法,其特征在于,所述步骤S3具体为:通过以下公式计算多头自注意力机制的输出H
intra
:H
intra
=MHA(H
*
,H
*
););式中,H
*
表示BiLSTM的输出,;表示向量连接,表示第i个注意力头的输出,W
mh
表示待学习的权重参数矩阵;通过以下公式计算注意力头的输出:Attention(k,q)=softmax(f
s
(k,q))k;f
s
(k
i
,q
j
)=tanh([k
i
;q
j
]
·
W
att
);式中,f
s
表示学习k
i
和q
j
之间语义相关性的得分函数,W
att
表示待学习的权重参数矩阵;逐点卷积变换(PCT)可以变换多头自注意力收集到的上下文信息;逐点卷积变换的计算公式如下:式中,σ(
·
)表示ELU激活函数,*表示卷积运算,表示两个卷积核待学习的权重参数矩阵,表示两个卷积核待学习的权重参数向量;将逐点卷积变换应用于多头自注意力的输出H
intra
,得到向量表示H
c
:...

【专利技术属性】
技术研发人员:廖祥文曾梦美郭星宇朱雨航张纬峰
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1