当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于多层次图池化的文本情感分析方法技术

技术编号:29673531 阅读:14 留言:0更新日期:2021-08-13 21:55
本发明专利技术公开了一种基于多层次图池化的文本情感分析方法,该方法包括下述步骤:对目标文本进行预处理;将词节点之间的共现点互信息作为词节点之间的边权,为每个文本单独建图;建立多层次图池化模型,门控图神经网络层传递低阶节点信息;第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;通过特征融合函数得到多层次的最终向量表示;选取最大概率值所对应的情感类别作为文本最终的情感类别输出。本发明专利技术从多方面多层次同时挖掘文本特征信息,获得更精准的情感分析效果。

【技术实现步骤摘要】
一种基于多层次图池化的文本情感分析方法
本专利技术涉及文本情感分析
,具体涉及一种基于多层次图池化的文本情感分析方法。
技术介绍
近年来,互联网及其附属产业飞速发展,互联网上的信息量飞速增长,网络上每天都会产生呈现大数据特征的以文本为主的海量数据,如何对这些海量的文本数据进行快速分类及分析是当前亟待解决的难题。文本的情感表达体现了人们对文本的理解和感情倾向,是对文本信息高层次的抽象。文本情感分析是对文本进行分类、分析的一个重要任务,如对社交网络中微博、博客的内容进行情感挖掘有利于舆情分析,对电商平台的用户商品评论进行情感分析有助于平台的精准营销推荐和消费者更好地了解产品。因此,运用有效的情感分析技术,从大量文本数据中提取出蕴含的有效情感信息,进而挖掘分析出用户的真实情感及所表达的内容特征,具有极大的运用价值,使得文本情感分析成为计算机自然语言处理领域的一个热点研究方向。现有基于机器学习的文本情感分析技术中,大多是以循环神经网络及其变体或一维卷积神经网络作为基础模块的序列模型,这类序列模型在局部连续的词序列中能较好地捕获到词义信息,但可能会忽略具有非连续性和长距离语义的全局词共现,对于文本特征的挖掘不够充分,没有挖掘到文本结构特征并且没有关注到文本中的重点情感信息,具有一定的局限性;同时,文本中的情感信息是较为高阶的抽象信息,若挖掘的特征信息不够充分,会影响到最终情感分析的效果。
技术实现思路
为了克服现有技术存在的缺陷与不足,本专利技术提供一种基于多层次图池化的文本情感分析方法,以对文本建图的角度出发,从多方面多层次同时挖掘文本特征信息,从而获得更精准的情感分析效果。本专利技术的第二目的在提供一种基于多层次图池化的文本情感分析系统。本专利技术的第三目的在于提供一种存储介质。本专利技术的第四目的在于提供一种计算设备。为了达到上述目的,本专利技术采用以下技术方案:本专利技术提供一种基于多层次图池化的文本情感分析方法,包括下述步骤:对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;文本建图:设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边,为每个文本单独建图;建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;所述门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;特征融合:对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;情感类别输出:将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。作为优选的技术方案,所述去除噪声信息采用正则表达式过滤噪声信息;所述分词处理的具体步骤包括:对噪声信息去除后的文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表;所述去除停用词的具体步骤包括:对分词后对应的词列表,通过停用词表进行停用词处理,得到停用词去除后的词列表;所述训练数值向量化的文本表示的具体步骤包括:采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量,在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。作为优选的技术方案,所述计算词节点与词节点之间的共现点互信息,具体计算公式为:其中,PMI(i,j)表示词节点与词节点之间的共现点互信息,N(i,j)为同时包含词节点i和词节点j的共现滑动窗口数,N(i)为包含词节点i的滑动窗口数,N(j)为包含词节点j的滑动窗口数,N为滑动完整个文本所用的滑动窗口数。作为优选的技术方案,所述门控图神经网络层传递低阶的节点信息,具体步骤包括:所述门控图神经网络层设有重置门和更新门,所述重置门在一次信息传递中的计算公式为:其中,为当前的中心节点特征向量,为中心节点的各个邻居节点的特征向量,为经过重置门后的特征信息,K为当前中心节点的邻居节点总数,、和W、U为可训练权重矩阵,为sigmoid激活函数,为Hadamard乘积运算;所述更新门在一次信息传递中的计算公式为:其中,为当前的中心节点经过以上重置门和更新门的节点信息传递和聚合后得到的特征向量,和为可训练权重矩阵;每一次参数更新时,每个节点接收相邻节点的信息,又向相邻节点发送信息,基于GRU在文本序列中的信息传递实现信息在文本图中的传递,输出更新后的文本图向量表示。作为优选的技术方案,所述通过计算图中各节点的注意力分数对图结构进行剪枝更新,具体步骤包括:基于图卷积计算注意力分数,具体计算公式为:其中,表示可训练参数矩阵,为正则化邻接矩阵,D为度矩阵,为带自环的邻接矩阵,X为文本图特征向量,为激活函数;计算各节点注意力分数选择top-k节点保留,更新图拓扑结构。作为优选的技术方案,所述图卷积层的具体计算公式为:其中,为带自环的归一化拉普拉斯矩阵,X和分别为信息传递前后的图节点特征矩阵,W为可训练权重矩阵,为激活函数。作为优选的技术方案,所述Readout函数具体计算公式为:其中G为整个图的向量表示,为节点i的向量表示,Concat为向量拼接函数,max为最大值函数,N为图中的节点总数。为了达到上述第二目的,本专利技术采用以下技术方案:一种基于多层次图池化的文本情感分析系统,包括:文本预处理模块、文本建图模块、多层次图池化模型构建模块、特征融合模块和情感类别输出模块;所述文本预处理模块用于对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;所述文本建图模块用于为每个文本单独建图,设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边;所述多层次图池化模型构建模块用于建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连本文档来自技高网...

【技术保护点】
1.一种基于多层次图池化的文本情感分析方法,其特征在于,包括下述步骤:/n对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;/n文本建图:设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边,为每个文本单独建图;/n建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;/n所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;/n所述门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;/n特征融合:对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;/n情感类别输出:将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。/n...

【技术特征摘要】
1.一种基于多层次图池化的文本情感分析方法,其特征在于,包括下述步骤:
对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;
文本建图:设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边,为每个文本单独建图;
建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;
所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;
所述门控图神经网络层传递低阶的节点信息;所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;
特征融合:对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;
情感类别输出:将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。


2.根据权利要求1所述的基于多层次图池化的文本情感分析方法,其特征在于,所述去除噪声信息采用正则表达式过滤噪声信息;
所述分词处理的具体步骤包括:对噪声信息去除后的文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表;
所述去除停用词的具体步骤包括:对分词后对应的词列表,通过停用词表进行停用词处理,得到停用词去除后的词列表;
所述训练数值向量化的文本表示的具体步骤包括:采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量,在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。


3.根据权利要求1所述的基于多层次图池化的文本情感分析方法,其特征在于,所述计算词节点与词节点之间的共现点互信息,具体计算公式为:



其中,PMI(i,j)表示词节点与词节点之间的共现点互信息,N(i,j)为同时包含词节点i和词节点j的共现滑动窗口数,N(i)为包含词节点i的滑动窗口数,N(j)为包含词节点j的滑动窗口数,N为滑动完整个文本所用的滑动窗口数。


4.根据权利要求1所述的基于多层次图池化的文本情感分析方法,其特征在于,所述门控图神经网络层传递低阶的节点信息,具体步骤包括:
所述门控图神经网络层设有重置门和更新门,所述重置门在一次信息传递中的计算公式为:






其中,为当前的中心节点特征向量,为中心节点的各个邻居节点的特征向量,为经过重置门后的特征信息,K为当前中心节点的邻居节点总数,、和W、U为可训练权重矩阵,为sigmoid激活函数,为Hadamard乘积运算;
所述更新门在一次信息传递中的计算公式为:



其中,为当前的中心节点经过以上重置门和更新门的节点信息传递和聚合后得到的特征向量,和为可训练权重矩阵;
每一次参数更新时...

【专利技术属性】
技术研发人员:黄斐然贝元琛刘冠
申请(专利权)人:暨南大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1