当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于句信息进行词信息增强的方面级情感分析方法技术

技术编号:38506537 阅读:10 留言:0更新日期:2023-08-19 16:53
本发明专利技术涉及计算机领域,公开了一种基于句信息进行词信息增强的方面级情感分析方法,包括以下步骤:步骤1:对句子进行预训练得到词向量;步骤2:将步骤1得到的词向量聚合得到句向量;步骤3:根据句向量构建正负样本集;步骤4:根据样本集和句向量进行对比学习;步骤5:词向量输入图卷积神经网络得到情感分类结果;构建损失函数,进行迭代,直到符合要求退出;本发明专利技术将对比学习的方法应用到方面级情感分析任务中;构建了正负样本数据集,在不引入外部数据的情况下,从语义差异角度提升对比学习的效果;结合多种不同句法距离的增强词表示可以更完善地利用句法依存树,更好地学习句子局部特征,充分考虑句子的整体信息。充分考虑句子的整体信息。充分考虑句子的整体信息。

【技术实现步骤摘要】
一种基于句信息进行词信息增强的方面级情感分析方法


[0001]本专利技术涉及计算机领域,具体涉及一种基于句信息进行词信息增强的方面级情感分析方法。

技术介绍

[0002]情感分析是自然语言处理的一个重要子任务,旨在判断给定文本的情感极性。电影评论、商品评论等互联网文本中含有丰富的信息,通过对这些文本信息进行情感分析,可以挖掘出用户的喜好。从粒度的角度看,情感分析可以被分为篇章级、句子级和方面级。其中句子级情感分析和篇章级情感分析旨在预测整个句子或者整篇文章的情感倾向,属于粗粒度情感分析。相比前两者,方面级情感分析根据文本中的意见词判断给定方面词的情感极性,属于细粒度的情感分析。例如,给定文本“Great food but the service was dreadful.”,句中的“food”与“service”作为方面词,对应的意见词分别为“Great”和“dreadful”,显然两个方面词的情感极性相反。在实际的应用场景中,不光需要识别文章或句子所表达的意见,还需要识别观点所指向的对象,以及针对该对象所表达的具体情感倾向,利用方面级情感分析能够更加准确的判断文本中多个方面词的情感极性。基于上述原因,方面级情感分析成为了自然语言处理的热门研究领域。
[0003]方面级情感分析在2010年由Thet等人提出,将实体的属性或实体的组成部分定义为“方面词”。方面级情感分析的方法主要包括基于情感词典的方法,基于机器学习的方法以及基于深度学习的方法。情感词典最早由Whissell等人提出。目前英文情感词典有SentiWordNet等,中文情感词典有NTUSD、情感词汇本体库等。基于情感词典进行情感分析的效果很大程度取决于情感词典的质量,且在不同语境中,相同的词可能表示相反的语义,因此很难确定方面词对应的情感极性。
[0004]基于机器学习的方法通过人工提取特征,利用机器学习算法构建分类模型,并将其用于未标注文本的情感分类,常用的分类算法有朴素贝叶斯,支持向量机等。但此类方法依赖于复杂的特征工程以及分类器的选择,难以表示复杂数据。近年来,随着技术与硬件的发展,深度学习成为了研究方面级情感分析任务最主流的方法。与机器学习相比,深度学习的泛化能力更强,可以自动学习文本的特征,减少了特征工程的需求。深度学习使用的神经网络有卷积神经网络、循环神经网络、图神经网络等。目前,图神经网络与句法知识结合的方法被广泛应用于方面级情感分析任务。利用句法依存树获取词语的依赖关系,并根据依赖关系进行邻居节点的聚合,为意见词信息的传播提供了可解释性,但仍然存在不足之处。例如CNN及其变体的分类能力优于传统机器学习方法,但CNN存在无法捕捉长距离依赖关系的缺点。

技术实现思路

[0005]本专利技术针对现有技术存在的问题提供一种基于句信息进行词信息增强的方面级情感分析方法。
[0006]本专利技术采用的技术方案是:一种基于句信息进行词信息增强的方面级情感分析方法,包括以下步骤:步骤1:对句子进行预训练得到词向量;步骤2:将步骤1得到的词向量聚合得到句向量;步骤3:根据步骤2得到的句向量构建正负样本集;步骤4:根据步骤3构建的样本集和步骤2得到的句向量进行对比学习;步骤5:步骤1得到的词向量输入图卷积神经网络得到情感分类结果;构建损失函数,进行迭代,直到符合要求退出。
[0007]进一步的,所述步骤5中图卷积神经网络包括图卷积层、平均池化层和归一化层;图卷积层中图卷积操作如下:式中:为第l层图卷积的节点更新,为节点i和节点j在句法距离k上的权重,为可训练权重,为偏置项,为非线性激活函数,n为节点个数,为节点j在l

1层的卷积操作后的向量;l层的输出可以表示为,为句子i在句法距离为k的第l层卷积操作下的向量集合;平均池化层:经过p次卷积后的增强整合后得到其中:为对向量进行平均池化,~为每次卷积后的输出的增强句向量,H为经过平均池化操作后的句子向量;增强句向量屏蔽掉非方面词经平均池化得到方面术语h
a
:其中h
a1
、h
a2

h
am
为方面术语中的词;归一化层用于将方面术语h
a
归一化处理:h
a
经线性层降维后经softmax函数处理,得到定义的极性标签的概率分布:式中:W
p
为学习权重,b
p
为偏置项。
[0008]进一步的,所述图卷积层中采用自注意力矩阵作为连接矩阵,自注意力矩阵A计算方法如下:式中Q为查询矩阵,K为值矩阵,W
Q
为可学习权重矩阵,W
K
为可学习权重矩阵,T为矩阵的转置操作,d为节点的维度。
[0009]进一步的,所述图卷积层中采用句法掩码矩阵获取句法距离低于目标值的邻居信
息,屏蔽掉句法距离高于设定值的间接相连节点;掩码矩阵表示为,其中、

为根据不同距离限制参数构建的句法掩码矩阵;式中:k为距离限制参数,为句法距离,i和j为节点,为句法距离为k的矩阵的值;将自注意力矩阵和句法掩码矩阵整合,对邻接矩阵进行softmax运算,得到每一个邻居节点在图卷积中的参与比例,参与图卷积的第i个邻接矩阵为:式中:为自注意力矩阵,为掩码矩阵。
[0010]进一步的,所述损失函数L包括交叉熵损失和对比学习损失:式中:L
c
为交叉熵损失,L
cl
为对比学习损失,为正则化系数,为正则化项。
[0011]进一步的,所述交叉熵损失为:式中:i为所选取的句子序号,n为句子的数量,c为标签,m为标签数,y
ic
为句子i的标签,为预测标签c类的概率;对比损失函数为:式中:表示句子和的相似性计算方法,为温度系数,表示句子和的相似性计算方法;Data表示数据集,表示指数函数,X
i
、X
s
、X
d
均表示句向量,T为矩阵的转置操作。
[0012]本专利技术的有益效果是:(1)本专利技术将对比学习的方法应用到方面级情感分析任务中,构建新样本为原样本增加扰动,增强句向量表示,利用对比损失调整词向量;(2)本专利技术构建了正负样本数据集,在不引入外部数据的情况下,从语义差异角度提升对比学习的效果;(3)本专利技术结合多种不同句法距离的增强词表示可以更完善地利用句法依存树,更好地学习句子局部特征;能充分考虑句子的整体信息。
附图说明
[0013]图1为本专利技术模型结构示意图。
[0014]图2为本专利技术中对比学习模块结构示意图。
[0015]图3为本专利技术实施例4中不同句向量的对比结果示意图,a为不同句向量准确率对比,b为不同句向量的F1值对比。
[0016]图4为本专利技术实施例5中Laptops数据集句向量训练前后分布示意图,a为对比学习前词向量分布,b为对比学习后词向量分布。
具体实施方式
[0017]下面结合附图和具体实施例对本专利技术做进一步说明。
[0018本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于句信息进行词信息增强的方面级情感分析方法,其特征在于,包括以下步骤:步骤1:对句子进行预训练得到词向量;步骤2:将步骤1得到的词向量聚合得到句向量;步骤3:根据步骤2得到的句向量构建正负样本集;步骤4:根据步骤3构建的样本集和步骤2得到的句向量进行对比学习;步骤5:步骤1得到的词向量输入图卷积神经网络得到情感分类结果;构建损失函数,进行迭代,直到符合要求退出。2.根据权利要求1所述的一种基于句信息进行词信息增强的方面级情感分析方法,其特征在于,所述步骤5中图卷积神经网络包括图卷积层、平均池化层和归一化层;图卷积层中图卷积操作如下:式中:为第l层图卷积的节点更新,为节点i和节点j在句法距离k上的权重,为可训练权重,为偏置项,为非线性激活函数,n为节点个数,为节点j在l

1层的卷积操作后的向量;l层的输出可以表示为,为句子i在句法距离为k的第l层卷积操作下的向量集合;平均池化层:经过p次卷积后的增强整合后得到其中:为对向量进行平均池化,~为每次卷积后的输出的增强句向量,H为经过平均池化操作后的句子向量;增强句向量屏蔽掉非方面词经平均池化得到方面术语h
a
:其中h
a1
、h
a2

h
am
为方面术语中的词;归一化层用于将方面术语h
a
归一化处理:h
a
经线性层降维后经softmax函数处理,得到定义的极性标签的概率分布:式中:W
p
为学习权重,b
p
为偏置项。3.根据权利要求2所述的一种基于句信息进行词信息增强的方面级情感分析方法,其特征在于,所述图卷积层中采用...

【专利技术属性】
技术研发人员:琚生根李怡霖张宇馨夏欣
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1