一种基于图小波网络模型的文本分类方法技术

技术编号:25308644 阅读:43 留言:0更新日期:2020-08-18 22:27
本发明专利技术公开了一种基于图小波网络模型的文本分类方法,包括以下步骤:步骤1、对文本进行预处理,步骤2、建立基于图小波网络模型并训练图小波网络模型;步骤3、构建文本图,根据词与文档的关系,利用改进的TF‑IDF算法建立文本图中词与文档的权重关系,根据词共现理论,利用PMI算法建立文本图中词与词之间的权重关系;步骤4、将构建好的文本图,输入到图小波网络模型中,利用图小波卷积的局部化特性,捕获局部词共现信息,实现文本的分类。本发明专利技术解决了现有技术中存在文本分类算法分类准确率不高的问题。

【技术实现步骤摘要】
一种基于图小波网络模型的文本分类方法
本专利技术属于自然语言处理
,涉及一种基于图小波网络模型的文本分类方法。
技术介绍
随着互联网技术的发展,文本信息呈指数增长。面对海量的文本信息,如何对各种文档进行恰当的表达和分类,从中快速、准确地找到所需的信息,已成为众多研究者关注的焦点。文本分类过程主要涉及文本表示、特征选择、分类器设计三个步骤。其中最重要的步骤为文本表示。词袋(BagofWords,BOW)模型是最常用的文本表示方法,由于其将文本表示为one-hot向量,忽略了语法和语序信息,丢失了大量的文本信息。为了解决文本表示中存在的问题,神经网络模型被应用于文本表示,如卷积神经网络(ConvolutionalNeuralNetworks)、递归神经网络(RecurrentNeuralNetworks)、胶囊神经网络(CapsuleNeuralNetworks)等。与传统的文本表示方法相比,RNNs在获取短文本的语义方面表现优越,但在学习长文档的语义特征方面效果较差;CNNs进行文本表示时,与n-gram有些类似,只能提取连续单词的语义成分,可能会失去单词之间的长距离语义依赖性。近年来,由于图卷积网络(GCNs)能更好的捕获非连续词和长距离词的语义和语法信息,引起了众多研究者的关注。Kipf和Welling提出GCN模型,该方法通过谱图卷积的局部化一阶近似对图卷积进行逼近与简化,使得计算复杂度降低,并可以对局部图结构和节点特征进行编码,学习隐藏层表示,改善了文本分类性能。Chiang等人为了降低图卷积网络的时间复杂度与内存复杂度,提出了Cluster-GCN,该方法使用图聚类算法对子图进行采样,并对采样子图中的节点进行图卷积。由于邻域搜索也被限制在采样子图范围内,因此聚类GCN能同时处理较大的图和使用较深的体系结构,所用时间短,内存少。Xu等人为了降低计算复杂度并提高分类准确率,提出了GWNN(GraphWaveletNeuralNetworks),该方法用图小波代替图拉普拉斯的特征向量作为基集,并且利用小波变换和卷积定理定义卷积算子。Yao等人提出TextGCN模型,该方法是将整个文本语料库建模为文档字图,并应用GCN进行分类。针对TF-IDF算法进行权重计算时,未考虑类间判别强度及分类准确率较低等问题,作者在Text-GCN模型研究基础上提出建立Text-GWNN模型。该模型的优点在于:(1)采用改进的TF-IDF算法构建文本图,能有效解决类间判别强度造成的词与文档权重的不均衡问题;(2)由于GCN模型在图傅里叶变换过程中需要进行特征分解,使得计算量较大;而图小波在节点域是稀疏及局部化的,具有较高的计算效率,并能够为图卷积提供良好的解释能力。
技术实现思路
本专利技术的目的是提供一种基于图小波网络模型的文本分类方法,解决了现有技术中存在的分类准确率较低的问题。本专利技术所采用的技术方案是,一种基于图小波网络模型的文本分类方法,具体按照以下步骤实施:步骤1、对文本进行预处理;步骤2、建立基于图小波网络模型并训练图小波网络模型;步骤3、构建文本图,根据词与文档的关系,利用改进的TF-IDF算法建立文本图中词与文档的权重关系,根据词共现理论,利用PMI算法建立文本图中词与词之间的权重关系;步骤4、将构建好的文本图,输入到图小波网络模型中,利用图小波卷积的局部化特性,捕获局部词共现信息,实现文本的分类。本专利技术的特点还在于:步骤1具体按照以下步骤实施:步骤1.1、利用python中的正则化库,进行分词、清洗数据中存在的乱码及标点符号;步骤1.2、导入python中的nltk库,加载库中停用词,去除语料库中的停用词。步骤2具体为,建立图小波网络模型并用监督学习方法对标签文本训练集进行训练,利用Adam和误差反向传播进行参数更新。步骤2中建立图小波网络模型具体为一个两层的神经网络,每层有20个图卷积核个数,图小波变换以一组小波为基Ψs=(Ψs1,Ψs2,…,Ψsn),因此,图信号x的图小波变换为图小波逆变换为图小波卷积定义为:其中,Ψs=UGsUT,Gs=diag((g(sλ1),…g(sλn))),U为拉普拉斯的特征向量,代表哈达玛积,令则上式可以简化为:则图小波网络模型为:其中,Ψs为小波基,为图小波变换矩阵,是对角滤波矩阵,h为非线性函数,参数l代表第l层神经元,本模型采用两层的图卷积神经网络,其中第一层非线性激活函数为Relu,第二层非线性激活函数为softmax,则模型可以简化为:其中,W(0)和W(1)为权重矩阵,A为邻接矩阵,IN为单位矩阵,为将中心节点本身视为邻接节点。步骤2中利用Adam和误差反向传播进行参数更新具体包括:Adam算法具体为,假设前向传播得到最后一层的损失为L,参数更新规则为:其中,α为学习步长,即学习率,ξ为1e-07;和为使用Adam优化算法时,偏差修正值,其计算公式如下:其中,β1为动量梯度下降法的超参数,β2为均方根传播中的超参数,t为迭代次数;设l层损失值为L,线性输出值为Z,经过非线性函数之后输出值为A,代价函数的计算公式为:其中,Ygf代表有标签的文档索引,F为输出特征的维度,则反向传播规则为:其中,g'为非线性激活函数的导数,参数W为训练过程中需要根据损失值进行更新,通过反向传播规则,利用公式(5)的参数更新规则,从而完成参数的更新。步骤3具体按照以下步骤实施:设无向图G=(V,E),其中V代表所有节点的集合,E代表边的集合,用拉普拉斯矩阵L=D-A表示图,其中A为邻接矩阵,代表两个节点之间的连接关系,D为度矩阵,代表每个节点与其他节点连接的个数,步骤3.1、根据语料库的特点,使用词与文档的关联构建无向文本图;在语料库中,节点V的数目为文档数加上文档中不重复出现的词的数目,根据词与文档的关系,如果词在该文档,则使用改进TF-IDF算法建立词与文档之间的权重关系;否则,词与文档之间的权重为0,改进TF-IDF算法具体计算公式为:其中,tfik指的是词i在文档k中出现的次数,N为总文档数,ni为出现词i的文档数,C为总类别数,ci为出现词i的类别数;步骤3.2、根据词共现理论,采用PMI算法建立词与词之间的权重关系:其中,p(i,j)为词i和词j同时出现在同一窗口的概率,p(i)为词i出现在窗口中的概率,Nij为词i和词j出现在同一滑动窗口的数目,Ni为语料中包含词i的滑动窗口数目,N为语料中滑动窗口的总数目。本专利技术的有益效果是:1.本专利技术采用改进TF-IDF算法解决构建文本图时,解决未考虑类间判别强度造成的词与文档权重的不均衡问题;2.本专利技术采用图小波网络模型(GraphWaveletNeuralNetwo本文档来自技高网
...

【技术保护点】
1.一种基于图小波网络模型的文本分类方法,其特征在于,具体按照以下步骤实施:/n步骤1、对文本进行预处理;/n步骤2、建立基于图小波网络模型并训练图小波网络模型;/n步骤3、构建文本图,根据词与文档的关系,利用改进的TF-IDF算法建立文本图中词与文档的权重关系,根据词共现理论,利用PMI算法建立文本图中词与词之间的权重关系;/n步骤4、将构建好的文本图,输入到图小波网络模型中,利用图小波卷积的局部化特性,捕获局部词共现信息,实现文本的分类。/n

【技术特征摘要】
1.一种基于图小波网络模型的文本分类方法,其特征在于,具体按照以下步骤实施:
步骤1、对文本进行预处理;
步骤2、建立基于图小波网络模型并训练图小波网络模型;
步骤3、构建文本图,根据词与文档的关系,利用改进的TF-IDF算法建立文本图中词与文档的权重关系,根据词共现理论,利用PMI算法建立文本图中词与词之间的权重关系;
步骤4、将构建好的文本图,输入到图小波网络模型中,利用图小波卷积的局部化特性,捕获局部词共现信息,实现文本的分类。


2.根据权利要求1所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、利用python中的正则化库,进行分词、清洗数据中存在的乱码及标点符号;
步骤1.2、导入python中的nltk库,加载库中停用词,去除语料库中的停用词。


3.根据权利要求1所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤2具体为,建立图小波网络模型并用监督学习方法对标签文本训练集进行训练,利用Adam和误差反向传播进行参数更新。


4.根据权利要求3所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤2中建立图小波网络模型具体为一个两层的神经网络,每层有20个图卷积核个数,图小波变换以一组小波为基Ψs=(Ψs1,Ψs2,…,Ψsn),因此,图信号x的图小波变换为图小波逆变换为图小波卷积定义为:



其中,Ψs=UGsUT,Gs=diag((g(sλ1),…g(sλn))),U为拉普拉斯的特征向量,代表哈达玛积,令则上式可以简化为:



则图小波网络模型为:



其中,Ψs为小波基,为图小波变换矩阵,是对角滤波矩阵,h为非线性函数,参数l代表第l层神经元,
本模型采用两层的图卷积神经网络,其中第一层非线性激活函数为Relu,第二层非线性激活函数为softmax,则模型可以简化为:



其中,W(0)和W(1)为权重矩阵,A为邻接矩阵,IN为单位矩阵,为将中心节点本身视为邻接节点。


5.根据权利要求3所述的一种基于图小波网...

【专利技术属性】
技术研发人员:李云红贾凯莉廉继红张欢欢张轩穆兴
申请(专利权)人:西安工程大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1