一种基于图小波网络模型的文本分类方法技术

技术编号：25308644 阅读：43 留言：0更新日期：2020-08-18 22:27

本发明专利技术公开了一种基于图小波网络模型的文本分类方法，包括以下步骤：步骤1、对文本进行预处理，步骤2、建立基于图小波网络模型并训练图小波网络模型；步骤3、构建文本图，根据词与文档的关系，利用改进的TF‑IDF算法建立文本图中词与文档的权重关系，根据词共现理论，利用PMI算法建立文本图中词与词之间的权重关系；步骤4、将构建好的文本图，输入到图小波网络模型中，利用图小波卷积的局部化特性，捕获局部词共现信息，实现文本的分类。本发明专利技术解决了现有技术中存在文本分类算法分类准确率不高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图小波网络模型的文本分类方法
本专利技术属于自然语言处理
，涉及一种基于图小波网络模型的文本分类方法。
技术介绍
随着互联网技术的发展，文本信息呈指数增长。面对海量的文本信息，如何对各种文档进行恰当的表达和分类，从中快速、准确地找到所需的信息，已成为众多研究者关注的焦点。文本分类过程主要涉及文本表示、特征选择、分类器设计三个步骤。其中最重要的步骤为文本表示。词袋(BagofWords,BOW)模型是最常用的文本表示方法，由于其将文本表示为one-hot向量，忽略了语法和语序信息，丢失了大量的文本信息。为了解决文本表示中存在的问题，神经网络模型被应用于文本表示，如卷积神经网络(ConvolutionalNeuralNetworks)、递归神经网络(RecurrentNeuralNetworks)、胶囊神经网络(CapsuleNeuralNetworks)等。与传统的文本表示方法相比，RNNs在获取短文本的语义方面表现优越，但在学习长文档的语义特征方面效果较差；CNNs进行文本表示时，与n-gram有些类似，只能提取连续单词的语义成分，可能会失去单词之间的长距离语义依赖性。近年来，由于图卷积网络(GCNs)能更好的捕获非连续词和长距离词的语义和语法信息，引起了众多研究者的关注。Kipf和Welling提出GCN模型，该方法通过谱图卷积的局部化一阶近似对图卷积进行逼近与简化，使得计算复杂度降低，并可以对局部图结构和节点特征进行编码，学习隐藏层表示，改善了文本分类性能。Chiang等人为了降低图卷积网络...

【技术保护点】
1.一种基于图小波网络模型的文本分类方法，其特征在于，具体按照以下步骤实施：/n步骤1、对文本进行预处理；/n步骤2、建立基于图小波网络模型并训练图小波网络模型；/n步骤3、构建文本图，根据词与文档的关系，利用改进的TF-IDF算法建立文本图中词与文档的权重关系，根据词共现理论，利用PMI算法建立文本图中词与词之间的权重关系；/n步骤4、将构建好的文本图，输入到图小波网络模型中，利用图小波卷积的局部化特性，捕获局部词共现信息，实现文本的分类。/n

【技术特征摘要】
1.一种基于图小波网络模型的文本分类方法，其特征在于，具体按照以下步骤实施：
步骤1、对文本进行预处理；
步骤2、建立基于图小波网络模型并训练图小波网络模型；
步骤3、构建文本图，根据词与文档的关系，利用改进的TF-IDF算法建立文本图中词与文档的权重关系，根据词共现理论，利用PMI算法建立文本图中词与词之间的权重关系；
步骤4、将构建好的文本图，输入到图小波网络模型中，利用图小波卷积的局部化特性，捕获局部词共现信息，实现文本的分类。

2.根据权利要求1所述的一种基于图小波网络模型的文本分类方法，其特征在于，所述步骤1具体按照以下步骤实施：
步骤1.1、利用python中的正则化库，进行分词、清洗数据中存在的乱码及标点符号；
步骤1.2、导入python中的nltk库，加载库中停用词，去除语料库中的停用词。

3.根据权利要求1所述的一种基于图小波网络模型的文本分类方法，其特征在于，所述步骤2具体为，建立图小波网络模型并用监督学习方法对标签文本训练集进行训练，利用Adam和误差反向传播进行参数更新。

4.根据权利要求3所述的一种基于图小波网络模型的文本分类方法，其特征在于，所述步骤2中建立图小波网络模型具体为一个两层的神经网络，每层有20个图卷积核个数，图小波变换以一组小波为基Ψs＝(Ψs1，Ψs2，…，Ψsn)，因此，图信号x的图小波变换为图小波逆变换为图小波卷积定义为：

其中，Ψs＝UGsUT，Gs＝diag((g(sλ1)，…g(sλn)))，U为拉普拉斯的特征向量，代表哈达玛积，令则上式可以简化为：

则图小波网络模型为：

其中，Ψs为小波基，为图小波变换矩阵，是对角滤波矩阵，h为非线性函数，参数l代表第l层神经元，
本模型采用两层的图卷积神经网络，其中第一层非线性激活函数为Relu，第二层非线性激活函数为softmax，则模型可以简化为：

其中，W(0)和W(1)为权重矩阵，A为邻接矩阵，IN为单位矩阵，为将中心节点本身视为邻接节点。

5.根据权利要求3所述的一种基于图小波网...

【专利技术属性】
技术研发人员：李云红，贾凯莉，廉继红，张欢欢，张轩，穆兴，
申请(专利权)人：西安工程大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人