一种基于变分自编码的文本分类方法技术

技术编号：21184671 阅读：35 留言：0更新日期：2019-05-22 15:16

本发明专利技术涉及一种基于变分自编码的文本分类方法，首先，将非结构化的文本数据转化为结构化的向量表示，从而使得文本数据能够被计算机所处理；其次，对得到的文本向量，使用变分自编码器来对其进行降维；最后，通过十则交叉验证来对分类器进行训练，得到最后的分类精度。本发明专利技术利用变分自编码器来对文本数据进行降维，而后再对降维的数据进行分类，能够有效的提升文本分类精度。

A Text Classification Method Based on Variational Self-coding

The present invention relates to a text classification method based on variational self-coding. Firstly, unstructured text data is transformed into structured vector representation so that text data can be processed by computer; secondly, the obtained text vector is dimensionally reduced by using variational self-coding; finally, the classifier is trained by ten cross-validations, and the classifier is obtained. The final classification accuracy. The method uses the variational self-encoder to reduce the dimension of text data, and then classifies the dimension-reduced data, which can effectively improve the accuracy of text classification.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于变分自编码的文本分类方法
本专利技术涉及深度学习
，特别是一种基于变分自编码的文本分类方法。
技术介绍
随着信息技术的发展，互联网中存在着文本、声音、图片、视频等各种类型的数据，其中文本数据占据了互联网数据的一半以上。因此，如何从不断增长的庞大数据中快速而准确的找到需要的信息是现在的研究热点。文本分类技术是其中一种有效的解决方案，该技术能够得出给定的文本(句子、文档等)的标签或标签集合。然而文本都是半结构化或者结构化的数据，这不仅会影响分类算法的运行效率,而且会从文档中提取不准确的信息，最终导致分类性能不佳。因此，对文本向量进行降维进而提取到低维的特征向量是提高文本分类准确率的关键因素。降维是文本分类过程中最重要的步骤之一。它主要是将数据从高维降低到一个远小于的维数。降维技术不仅可以降低文本分类的时间复杂度和空间复杂度，去除无关特征或噪声特征，而且可以更好地数据对数据进行解释。降维技术可以分为线性降维和非线性降维两大类。在线性降维中，主成分分析方法(PrincipleComponentAnalysis，简称PCA)和线性判别分析(LinearDiscriminantAnalysis，简称LDA)是两大主要的方法。PCA对原始数据进行线性变换，新生成的数据是原始数据的线性组合。LDA则是对数据进行投影，它使得投影后的数据在相同类别上距离更近而不同类别上的数据距离更远。显然，PCA是属于无监督学习，LDA则是有监督学习。非线性降维可分为保留局部特征和保留全局特征。保留局部特征的降维方法也有很多种，有基于重建权值的方法以及基于领接图等方法。局部线性...

【技术保护点】
1.一种基于变分自编码的文本分类方法，其特征在于：首先，将非结构化的文本数据转化为结构化的向量表示，从而使得文本数据能够被计算机所处理；其次，对得到的文本向量，使用变分自编码器来对其进行降维；最后，通过十则交叉验证来对分类器进行训练，得到最后的分类精度。

【技术特征摘要】
1.一种基于变分自编码的文本分类方法，其特征在于：首先，将非结构化的文本数据转化为结构化的向量表示，从而使得文本数据能够被计算机所处理；其次，对得到的文本向量，使用变分自编码器来对其进行降维；最后，通过十则交叉验证来对分类器进行训练，得到最后的分类精度。2.根据权利要求1所述的一种基于变分自编码的文本分类方法，其特征在于：所述将非结构化的文本数据转化为结构化的向量表示具体为：采用词频-逆文本频率TF-IDF将非结构化的文本数据转化为结构化的向量表示。3.根据权利要求2所述的一种基于变分自编码的文本分类方法，其特征在于：所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤：步骤S11：在一个给定的文件中，计算词频TF；步骤S12：计算反文档频率IDF；步骤S13：采用下式计算词语i在文档j中的TF-IDF值：(TF-IDF)i,j＝TFi,j×IDFi；式中，TFi,j表示词i在文档j中的出现频率，IDFi,j表示词语i的反文档频率。4.根据权利要求1所述的一种基于变分自编...

【专利技术属性】
技术研发人员：刘耿耿，谢麟，连鸿飞，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人