基于图卷积网络的文本情感分析方法、系统和电子装置制造方法及图纸

技术编号:26597824 阅读:44 留言:0更新日期:2020-12-04 21:20
本申请涉及一种基于图卷积网络的文本情感分析方法、系统和电子装置,其中所述方法包括:对输入的文本序列进行分词;按照所述文本序列顺序将每个所述分词转化为对应的词嵌入;提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合起来,获得每个词嵌入的上下文语义特征;根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点的依存向量;将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。

【技术实现步骤摘要】
基于图卷积网络的文本情感分析方法、系统和电子装置
本申请涉及文本情感分析
,具体而言,涉及一种基于图卷积网络的文本情感分析方法、系统和电子装置。
技术介绍
情感分析技术是随着20世纪初互联网的快速发展,而逐渐兴起的,并且已经从学术研究领域逐步拓展到工业应用领域。文本情感分析作为一种文本分类任务,早期采用的是基于词典的方法,预先构建足够大的情感词典,再利用规则来判别文本的情感倾向。但是情感词典的构建过程需要人工对各类型词语进行整理,且由于新词不断出现使得需要对情感词典进行不断的维护,导致该类方法人力投入巨大;同时由于其忽略了文本的顺序性,其性能表现也差强人意。第二类方法是基于机器学习的方法,如支持向量机(SupportVectorMachine,SVM)、朴素贝叶斯(Bayes,NB)等。这种方法的性能表现依赖于特征的选取,因此该类方法的可移植性较低。第三类是基于深度学习的方法,主要是运用卷积神经网络(ConvolutionNeuralNetwork,CNN)、(RecurrentNeuralNetwork,RNN)两种深度神经网络实现分类。该类方法可以从海量文本中,自动捕捉深层次的语义特征,且不需要构建和维护情感词典,不需要人工构造特征,实现端到端的文本情感分析任务。其中,CNN通过扩大卷积核尺寸,有效捕捉不同位置的情感信息,进而获得文本的局部情感特征,但是对于长距离的语义关系的提取能力较弱。RNN无法对非相邻词语之间的语义关系进行直接建模,因此其对样本数据较长或者语言场景较复杂时,有效情感信息之间的间隔有大有小,长短不一,RNN的性能也受到限制。并且部分方法在其计算过程还使用了情感词典(HowNet),影响方法在领域迁移上的灵活性。
技术实现思路
本申请的目的是解决现有的文本情感分析技术对于长距离的语义关系的提取能力较弱,无法对非相邻词语之间的语义关系进行直接建模,在领域迁移上的灵活性较差的问题。为实现上述目的,本申请提供了一种基于图卷积网络的文本情感分析方法、系统和电子装置。第一方面,本申请实施例提出一种基于图卷积网络的文本情感分析方法,包括对输入的文本序列进行分词;按照所述文本序列顺序将每个所述分词转化为对应的词嵌入;提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合起来,获得每个词嵌入的上下文语义特征;根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点的依存向量;将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。在一个可能的实施方式中,所述按照所述文本序列顺序将每个所述分词转化为对应的词嵌入,包括:按照所述文本序列顺序将每个所述分词中离散的高频词转为低维连续向量,将所述每个分词中离散的低频词转为特殊符号对应的低维连续向量,所述低维连续向量为每个所述分词对应的词嵌入;词嵌入层使用Glove向量进行初始化,维度为300。在一个可能的实施方式中,所述提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合起来,获得每个词嵌入的上下文语义特征,包括:将每个所述词嵌入顺序输入双向LSTM网络;其中,所述双向LSTM网络中的正向LSTM网络提取每个词嵌入正向的语义特征;所述双向LSTM网络中的反向LSTM网络提取每个词嵌入反方向的语义特征;将相同位置上的所述每个词嵌入的正向语义特征和反向语义特征组合,输出每个所述词嵌入的上下文语义特征。在一个可能的实施方式中,所述根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树,包括:根据每个所述词嵌入的上下文语义特征,通过多层感知机逐个计算任意两个词嵌入之间的语义关系值,得到连接矩阵;以每个所述词嵌入为节点,根据所述连接矩阵的每一个语义关系值解析两个节点之间的关系,确定在依存句法树中对应的两个节点之间是否连线,根据连线连接所有节点,得到所述文本序列的依存句法树。在一个可能的实施方式中,以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点的依存向量,包括:以所述依存句法树为图输入一个图卷积网络,所述图卷积网络以所述每个词嵌入的上下文语义特征作为所述依存句法树每个节点初始状态,以所述依存句法树中的ROOT节点为结束标识,对所述依存句法树进行图卷积运算,输出所述依存句法树ROOT节点的依存向量。在一个可能的实施方式中,所述方法还包括训练步骤:将训练集的文本序列进行分词,将各个分词结果序列与其句子整体对应的情感极性类别配对,组成<文本序列,情感极性类别>对的形式;以训练集的文本序列为输入,以对应的情感极性类别为输出,使用分类的交叉熵作为损失函数,优化器使用Adam,进行整体训练,获得训练好的基于图卷积网络的文本情感分析模型。在一个可能的实施方式中,在所述进行整体训练之前还包括:对图卷积网络单独进行训练,获得训练好的图卷积网络;使用Glove向量来初始化词嵌入层,所述嵌入层维度为300。第二方面,本申请实施例提出一种基于图卷积网络的文本情感分析系统,包括:分词模块,用于对输入文本序列进行分词;词嵌入模块,用于将顺序输入的所述分词转化为每个所述分词对应的词嵌入;双向LSTM网络,用于提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合起来,获得每个词嵌入的上下文语义特征;依存句法树解析模块,用于根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;图卷积网络,用于以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点的依存向量;Softmax分类器,用于将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。第三方面,本申请实施例提出一种电子装置,包括存储器和处理器;所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行上述任意一项实施方式所述的基于图卷积网络的文本情感分析方法。第四方面,本申请实施例提出一种存储介质,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现上述任意一项实施方式所述的基于图卷积网络的文本情感分析方法。附图说明为了更清楚地说明本申请披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本申请实施例提出的基于图卷积网络的文本情感分析方法的模型框架图;图2为本申请的实施例提本文档来自技高网
...

【技术保护点】
1.一种基于图卷积网络的文本情感分析方法,其特征在于,包括:/n对输入的文本序列进行分词;/n按照所述文本序列顺序将每个所述分词转化为对应的词嵌入;/n提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合,获得每个词嵌入的上下文语义特征;/n根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;/n以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点位置的依存向量;/n将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。/n

【技术特征摘要】
1.一种基于图卷积网络的文本情感分析方法,其特征在于,包括:
对输入的文本序列进行分词;
按照所述文本序列顺序将每个所述分词转化为对应的词嵌入;
提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合,获得每个词嵌入的上下文语义特征;
根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;
以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点位置的依存向量;
将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。


2.根据权利要求1所述的方法,其特征在于,所述按照所述文本序列顺序将每个所述分词转化为对应的词嵌入,包括:
按照所述文本序列顺序将每个所述分词中离散的高频词转为低维连续向量,将所述每个分词中离散的低频词转为特殊符号对应的低维连续向量,所述低维连续向量为每个所述分词对应的词嵌入;词嵌入层使用Glove向量进行初始化,维度为300。


3.根据权利要求1所述的方法,其特征在于,所述提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合,获得每个词嵌入的上下文语义特征,包括:
将每个所述词嵌入顺序输入双向LSTM网络;
其中,所述双向LSTM网络中的正向LSTM网络提取每个词嵌入正向的语义特征;
所述双向LSTM网络中的反向LSTM网络提取每个词嵌入反方向的语义特征;
将相同位置上的所述每个词嵌入的正向语义特征和反向语义特征组合,输出每个所述词嵌入的上下文语义特征。


4.根据权利要求1所述的方法,其特征在于,所述根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树,包括:
根据每个所述词嵌入的上下文语义特征,通过多层感知机逐个计算任意两个词嵌入之间的语义关系值,得到连接矩阵;
以每个所述词嵌入为节点,根据所述连接矩阵的每一个语义关系值解析两个节点之间的关系,确定在依存句法树中对应的两个节点之间是否连线,根据连线连接所有节点,得到所述文本序列的依存句法树。


5.根据权利要求1所述的方法,其特征在于,以所述依存句法树为图进行图卷积运算,获...

【专利技术属性】
技术研发人员:邹月娴蒲璐汶
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1