【技术实现步骤摘要】
一种基于图小波网络模型的文本分类方法
本专利技术属于自然语言处理
,涉及一种基于图小波网络模型的文本分类方法。
技术介绍
随着互联网技术的发展,文本信息呈指数增长。面对海量的文本信息,如何对各种文档进行恰当的表达和分类,从中快速、准确地找到所需的信息,已成为众多研究者关注的焦点。文本分类过程主要涉及文本表示、特征选择、分类器设计三个步骤。其中最重要的步骤为文本表示。词袋(BagofWords,BOW)模型是最常用的文本表示方法,由于其将文本表示为one-hot向量,忽略了语法和语序信息,丢失了大量的文本信息。为了解决文本表示中存在的问题,神经网络模型被应用于文本表示,如卷积神经网络(ConvolutionalNeuralNetworks)、递归神经网络(RecurrentNeuralNetworks)、胶囊神经网络(CapsuleNeuralNetworks)等。与传统的文本表示方法相比,RNNs在获取短文本的语义方面表现优越,但在学习长文档的语义特征方面效果较差;CNNs进行文本表示时,与n-gram有些类似,只能提取连续单词的语义成分,可能会失去单词之间的长距离语义依赖性。近年来,由于图卷积网络(GCNs)能更好的捕获非连续词和长距离词的语义和语法信息,引起了众多研究者的关注。Kipf和Welling提出GCN模型,该方法通过谱图卷积的局部化一阶近似对图卷积进行逼近与简化,使得计算复杂度降低,并可以对局部图结构和节点特征进行编码,学习隐藏层表示,改善了文本分类性能。Chiang等人为了降低图卷积网络 ...
【技术保护点】
1.一种基于图小波网络模型的文本分类方法,其特征在于,具体按照以下步骤实施:/n步骤1、对文本进行预处理;/n步骤2、建立基于图小波网络模型并训练图小波网络模型;/n步骤3、构建文本图,根据词与文档的关系,利用改进的TF-IDF算法建立文本图中词与文档的权重关系,根据词共现理论,利用PMI算法建立文本图中词与词之间的权重关系;/n步骤4、将构建好的文本图,输入到图小波网络模型中,利用图小波卷积的局部化特性,捕获局部词共现信息,实现文本的分类。/n
【技术特征摘要】
1.一种基于图小波网络模型的文本分类方法,其特征在于,具体按照以下步骤实施:
步骤1、对文本进行预处理;
步骤2、建立基于图小波网络模型并训练图小波网络模型;
步骤3、构建文本图,根据词与文档的关系,利用改进的TF-IDF算法建立文本图中词与文档的权重关系,根据词共现理论,利用PMI算法建立文本图中词与词之间的权重关系;
步骤4、将构建好的文本图,输入到图小波网络模型中,利用图小波卷积的局部化特性,捕获局部词共现信息,实现文本的分类。
2.根据权利要求1所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、利用python中的正则化库,进行分词、清洗数据中存在的乱码及标点符号;
步骤1.2、导入python中的nltk库,加载库中停用词,去除语料库中的停用词。
3.根据权利要求1所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤2具体为,建立图小波网络模型并用监督学习方法对标签文本训练集进行训练,利用Adam和误差反向传播进行参数更新。
4.根据权利要求3所述的一种基于图小波网络模型的文本分类方法,其特征在于,所述步骤2中建立图小波网络模型具体为一个两层的神经网络,每层有20个图卷积核个数,图小波变换以一组小波为基Ψs=(Ψs1,Ψs2,…,Ψsn),因此,图信号x的图小波变换为图小波逆变换为图小波卷积定义为:
其中,Ψs=UGsUT,Gs=diag((g(sλ1),…g(sλn))),U为拉普拉斯的特征向量,代表哈达玛积,令则上式可以简化为:
则图小波网络模型为:
其中,Ψs为小波基,为图小波变换矩阵,是对角滤波矩阵,h为非线性函数,参数l代表第l层神经元,
本模型采用两层的图卷积神经网络,其中第一层非线性激活函数为Relu,第二层非线性激活函数为softmax,则模型可以简化为:
其中,W(0)和W(1)为权重矩阵,A为邻接矩阵,IN为单位矩阵,为将中心节点本身视为邻接节点。
5.根据权利要求3所述的一种基于图小波网...
【专利技术属性】
技术研发人员:李云红,贾凯莉,廉继红,张欢欢,张轩,穆兴,
申请(专利权)人:西安工程大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。