基于图卷积网络的文本情感分析方法、系统和电子装置制造方法及图纸

技术编号：26597824 阅读：44 留言：0更新日期：2020-12-04 21:20

本申请涉及一种基于图卷积网络的文本情感分析方法、系统和电子装置，其中所述方法包括：对输入的文本序列进行分词；按照所述文本序列顺序将每个所述分词转化为对应的词嵌入；提取每个所述词嵌入的正向语义特征和反向语义特征，将相同位置的所述正向语义特征和反向语义特征组合起来，获得每个词嵌入的上下文语义特征；根据所述每个词嵌入的上下文语义特征，计算任意两个词嵌入之间的语义关系值，获得连接矩阵；根据所述连接矩阵解析所述文本序列的依存句法树；以所述依存句法树为图进行图卷积运算，获得所述依存句法树ROOT节点的依存向量；将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分，确定所述文本序列的情感极性类别。

全部详细技术资料下载

【技术实现步骤摘要】
基于图卷积网络的文本情感分析方法、系统和电子装置
本申请涉及文本情感分析
，具体而言，涉及一种基于图卷积网络的文本情感分析方法、系统和电子装置。
技术介绍
情感分析技术是随着20世纪初互联网的快速发展，而逐渐兴起的，并且已经从学术研究领域逐步拓展到工业应用领域。文本情感分析作为一种文本分类任务，早期采用的是基于词典的方法，预先构建足够大的情感词典，再利用规则来判别文本的情感倾向。但是情感词典的构建过程需要人工对各类型词语进行整理，且由于新词不断出现使得需要对情感词典进行不断的维护，导致该类方法人力投入巨大；同时由于其忽略了文本的顺序性，其性能表现也差强人意。第二类方法是基于机器学习的方法，如支持向量机(SupportVectorMachine，SVM)、朴素贝叶斯(Bayes，NB)等。这种方法的性能表现依赖于特征的选取，因此该类方法的可移植性较低。第三类是基于深度学习的方法，主要是运用卷积神经网络(ConvolutionNeuralNetwork，CNN)、(RecurrentNeuralNetwork，RNN)两种深度神经网络实现分类。该类方法可以从海量文本中，自动捕捉深层次的语义特征，且不需要构建和维护情感词典，不需要人工构造特征，实现端到端的文本情感分析任务。其中，CNN通过扩大卷积核尺寸，有效捕捉不同位置的情感信息，进而获得文本的局部情感特征，但是对于长距离的语义关系的提取能力较弱。RNN无法对非相邻词语之间的语义关系进行直接建模，因此其对样本数据较长或者语言场景较复杂时，有效情感信息之间的间隔有大有...

【技术保护点】
1.一种基于图卷积网络的文本情感分析方法，其特征在于，包括：/n对输入的文本序列进行分词；/n按照所述文本序列顺序将每个所述分词转化为对应的词嵌入；/n提取每个所述词嵌入的正向语义特征和反向语义特征，将相同位置的所述正向语义特征和反向语义特征组合，获得每个词嵌入的上下文语义特征；/n根据所述每个词嵌入的上下文语义特征，计算任意两个词嵌入之间的语义关系值，获得连接矩阵；根据所述连接矩阵解析所述文本序列的依存句法树；/n以所述依存句法树为图进行图卷积运算，获得所述依存句法树ROOT节点位置的依存向量；/n将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分，确定所述文本序列的情感极性类别。/n

【技术特征摘要】
1.一种基于图卷积网络的文本情感分析方法，其特征在于，包括：
对输入的文本序列进行分词；
按照所述文本序列顺序将每个所述分词转化为对应的词嵌入；
提取每个所述词嵌入的正向语义特征和反向语义特征，将相同位置的所述正向语义特征和反向语义特征组合，获得每个词嵌入的上下文语义特征；
根据所述每个词嵌入的上下文语义特征，计算任意两个词嵌入之间的语义关系值，获得连接矩阵；根据所述连接矩阵解析所述文本序列的依存句法树；
以所述依存句法树为图进行图卷积运算，获得所述依存句法树ROOT节点位置的依存向量；
将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分，确定所述文本序列的情感极性类别。

2.根据权利要求1所述的方法，其特征在于，所述按照所述文本序列顺序将每个所述分词转化为对应的词嵌入，包括：
按照所述文本序列顺序将每个所述分词中离散的高频词转为低维连续向量，将所述每个分词中离散的低频词转为特殊符号对应的低维连续向量，所述低维连续向量为每个所述分词对应的词嵌入；词嵌入层使用Glove向量进行初始化，维度为300。

3.根据权利要求1所述的方法，其特征在于，所述提取每个所述词嵌入的正向语义特征和反向语义特征，将相同位置的所述正向语义特征和反向语义特征组合，获得每个词嵌入的上下文语义特征，包括：
将每个所述词嵌入顺序输入双向LSTM网络；
其中，所述双向LSTM网络中的正向LSTM网络提取每个词嵌入正向的语义特征；
所述双向LSTM网络中的反向LSTM网络提取每个词嵌入反方向的语义特征；
将相同位置上的所述每个词嵌入的正向语义特征和反向语义特征组合，输出每个所述词嵌入的上下文语义特征。

4.根据权利要求1所述的方法，其特征在于，所述根据所述每个词嵌入的上下文语义特征，计算任意两个词嵌入之间的语义关系值，获得连接矩阵；根据所述连接矩阵解析所述文本序列的依存句法树，包括：
根据每个所述词嵌入的上下文语义特征，通过多层感知机逐个计算任意两个词嵌入之间的语义关系值，得到连接矩阵；
以每个所述词嵌入为节点，根据所述连接矩阵的每一个语义关系值解析两个节点之间的关系，确定在依存句法树中对应的两个节点之间是否连线，根据连线连接所有节点，得到所述文本序列的依存句法树。

5.根据权利要求1所述的方法，其特征在于，以所述依存句法树为图进行图卷积运算，获...

【专利技术属性】
技术研发人员：邹月娴，蒲璐汶，
申请(专利权)人：北京大学深圳研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人