当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于变分自编码的文本分类方法技术

技术编号:21184671 阅读:35 留言:0更新日期:2019-05-22 15:16
本发明专利技术涉及一种基于变分自编码的文本分类方法,首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。本发明专利技术利用变分自编码器来对文本数据进行降维,而后再对降维的数据进行分类,能够有效的提升文本分类精度。

A Text Classification Method Based on Variational Self-coding

The present invention relates to a text classification method based on variational self-coding. Firstly, unstructured text data is transformed into structured vector representation so that text data can be processed by computer; secondly, the obtained text vector is dimensionally reduced by using variational self-coding; finally, the classifier is trained by ten cross-validations, and the classifier is obtained. The final classification accuracy. The method uses the variational self-encoder to reduce the dimension of text data, and then classifies the dimension-reduced data, which can effectively improve the accuracy of text classification.

【技术实现步骤摘要】
一种基于变分自编码的文本分类方法
本专利技术涉及深度学习
,特别是一种基于变分自编码的文本分类方法。
技术介绍
随着信息技术的发展,互联网中存在着文本、声音、图片、视频等各种类型的数据,其中文本数据占据了互联网数据的一半以上。因此,如何从不断增长的庞大数据中快速而准确的找到需要的信息是现在的研究热点。文本分类技术是其中一种有效的解决方案,该技术能够得出给定的文本(句子、文档等)的标签或标签集合。然而文本都是半结构化或者结构化的数据,这不仅会影响分类算法的运行效率,而且会从文档中提取不准确的信息,最终导致分类性能不佳。因此,对文本向量进行降维进而提取到低维的特征向量是提高文本分类准确率的关键因素。降维是文本分类过程中最重要的步骤之一。它主要是将数据从高维降低到一个远小于的维数。降维技术不仅可以降低文本分类的时间复杂度和空间复杂度,去除无关特征或噪声特征,而且可以更好地数据对数据进行解释。降维技术可以分为线性降维和非线性降维两大类。在线性降维中,主成分分析方法(PrincipleComponentAnalysis,简称PCA)和线性判别分析(LinearDiscriminantAnalysis,简称LDA)是两大主要的方法。PCA对原始数据进行线性变换,新生成的数据是原始数据的线性组合。LDA则是对数据进行投影,它使得投影后的数据在相同类别上距离更近而不同类别上的数据距离更远。显然,PCA是属于无监督学习,LDA则是有监督学习。非线性降维可分为保留局部特征和保留全局特征。保留局部特征的降维方法也有很多种,有基于重建权值的方法以及基于领接图等方法。局部线性嵌入(LocallyLinearEmbedding,简称LLE)关注于降维时保持样本局部的线性特征,它通过重建权值来放弃所有样本全局最优的降维,保证了局部最优来降维。拉普拉斯特征映射(LaplacianEigenmaps,简称LE)看问题的角度和LLE有些相似,也是用局部的角度去构建数据之间的关系。它的直观思想是希望相互间有关系的点(在领接图中相连的点)在降维后的空间中尽可能的靠近。LE可以反映出数据内在的流形结构。在保持全局特征的方法中,有多维尺度变换(MultidimensionalScaling,简称MDS)、等距特征映射(Isometricfeaturemapping,简称Isomap)、神经网络等降维方法。其中,MDS和Isomap在降维后均保持样本间距离不变。多层神经网络比浅层神经网络具有更好的特征学习能力,最著名的深度学习模型包括受限玻尔兹曼机(RestrictedBoltzmannMachine,简称RBM)和自动编码器(Auto-Encoder,简称AE)。RBM是一种随机神经网络模型,只包括可见层和隐藏层,和普通前馈神经网络一样,同层神经元之间无连接,相邻层神经元之间全连接,其中隐藏层通常看作特征提取层。AE主要包括编码阶段和解码阶段,且结构是对称的,即如果有多个隐层时,编码阶段的隐层数量与解码阶段相同。解码器能够重构出经过编码器编码后的数据。所以训练得到的自编码器,提取编码器得到的隐层数据就可以作为一种降维。自编码器在这几年得到了快速的发展,通过增加了对隐含层的约束,使隐含层表达与输入层不同,如果此时模型还能重构输入数据,说明隐含层数据足以表示输入数据,进而发展出了各种各样的基于自编码器的改进模型。而隐含层数据相当于自动从模型中学习到的有效特征。变分自编码(VariationalAuto-Encoder,简称VAE)由Kingma在2014年提出的一种基于自编码器的改进模型(D.P.KingmaandM.Welling,“Auto-encodingvariationalbayes,”inConferenceProceedings:PapersAcceptedTotheInternationalConferenceonLearningRepresentations,2014.),它是一种生成模型。变分自编码器利用一组数据对模型进行训练,然后单独的解码器就可以自动生成与训练数据类似的输出。由于隐层可以自动生成生成与训练数据类似的输出,所以其隐层也可以认为是一种数据的降维方式。
技术实现思路
有鉴于此,本专利技术的目的是提出一种基于变分自编码的文本分类方法,利用变分自编码器来对文本数据进行降维,而后再对降维的数据进行分类,能够有效的提升文本分类精度。本专利技术采用以下方案实现:一种基于变分自编码的文本分类方法,首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理,能够得到维数远小于最先得到的文本向量;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。进一步地,所述将非结构化的文本数据转化为结构化的向量表示具体为:采用词频-逆文本频率(TermFrequency-InverseDocumentFrequency,简称TF-IDF)将非结构化的文本数据转化为结构化的向量表示。进一步地,所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤:步骤S11:在一个给定的文件中,计算词频(TermFrequency,简称TF);其中TF指的是某一个给定的词语在该文件中出现的频率;步骤S12:计算反文档频率IDF(InverseDocumentFrequency,简称IDF),IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到;步骤S13:采用下式计算词语i在文档j中的TF-IDF值:(TF-IDF)i,j=TFi,j×IDFi;式中,TFi,j表示词i在文档j中的出现频率,IDFi,j表示词语i的反文档频率。其中,词频的计算采用下式:式中,TFi,j表示词j在文档i中的出现频率,ni,j表示词j在文档i中出现的次数。其中,反文档频率IDF的计算采用下式:式中,IDFi表示词语i的反文档频率;|D|表示预料库中的文件总数;|{j∶i∈dj}|表示出现词语i的文档总数,+1则是为了防止没有出现时分母为0的情况。进一步地,所述对得到的文本向量,使用变分自编码器来对其进行降维具体为:引入变分自编码器,将所有得到的文本向量输入到变分自编码器网络中进行训练,训练得到编码器网络后,再将文本向量输入到编码器网络中得到隐藏层的输出,并将其作为降维后的文本特征。进一步地,所述通分类器采用K近邻算法(K-NearestNeighbor,简称K-NN)。K-NN算法就是将离测试点x最近距离的K个点中类别总数最多的类别作为测试点x的标签输出。进一步地,所述通过十则交叉验证来对分类器进行训练,得到最后的分类精度具体为:将数据均分成10份,每次选取数据中的1份作为测试集,其余9份作为训练集,如此循环10次取平均值得到最后的分类精度。进一步地,采用下式计算所述分类精度ACC:式中,P为正样本数量;N为负样本数量;TP为正确分类为正样本数量;TN为正确分类负样本数量;在多分类问题中,P+N表示为测试集样本总数,TP+TN表示为最后被正确分类的测试集样本总数。与现有技术相比,本专利技术有以下有益效果:本专利技术采用本文档来自技高网
...

【技术保护点】
1.一种基于变分自编码的文本分类方法,其特征在于:首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。

【技术特征摘要】
1.一种基于变分自编码的文本分类方法,其特征在于:首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。2.根据权利要求1所述的一种基于变分自编码的文本分类方法,其特征在于:所述将非结构化的文本数据转化为结构化的向量表示具体为:采用词频-逆文本频率TF-IDF将非结构化的文本数据转化为结构化的向量表示。3.根据权利要求2所述的一种基于变分自编码的文本分类方法,其特征在于:所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤:步骤S11:在一个给定的文件中,计算词频TF;步骤S12:计算反文档频率IDF;步骤S13:采用下式计算词语i在文档j中的TF-IDF值:(TF-IDF)i,j=TFi,j×IDFi;式中,TFi,j表示词i在文档j中的出现频率,IDFi,j表示词语i的反文档频率。4.根据权利要求1所述的一种基于变分自编...

【专利技术属性】
技术研发人员:刘耿耿谢麟连鸿飞
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1