The invention discloses a method for text categorization by using a variety of text features, which comprises the following steps: using a multi-dimensional text representation algorithm to generate multiple sets of different text feature representations, i.e. vertically generating a multi-dimensional text feature representation; and using a variety of different text representation algorithms to generate multiple sets of different text features Feature representation, that is, multi-dimensional text feature representation is generated horizontally; different feature representation vectors of each sample are combined as new feature vectors of the sample, and then a new feature representation of the data set is obtained. The present invention improves the existing text representation algorithm, and proposes using more text representations with lower dimension and larger difference to mine different internal structures of text, enhance the ability of text representation, greatly reduce the dimension of text features, and enhance the effect of text classification and other tasks.
【技术实现步骤摘要】
一种利用多样化文本特征进行文本分类的方法
本专利技术属于文本表示领域,尤其涉及一种利用多样化文本特征进行文本分类的方法。
技术介绍
近年来,随着计算机技术与互联网的迅猛发展,人类进入信息时代,海量的数据,尤其是各类文本数据,蕴含着重要的信息与巨大的价值。对这些文本数据进行合理的整理归纳,有利于更好的利用这些大规模的文本数据。文本分类则是一种非常有效的方法。文本分类一直是机器学习与人工智能领域一个非常重要的基础研究方向,同时也在产业界中有着广泛的应用。文本分类的效果在极大程度上取决于文本特征表示的质量。人类可以阅读的纯文本,对于机器学习算法而言是无法直接识别并利用的,需要转换成算法可以识别的实数向量或矩阵的形式。文本特征表示就是将纯文本转换成实数向量或矩阵的过程,即将语言进行数字化转换。文本特征表示主要分为两大类:一类是词级别的文本特征表示,即将词表示成词向量的形式,进而应用于文本分类等任务。该方法一般认为可以获取到词的语义信息,通过将词的语义信息添加到文本分类中来提升文本分类的效果;另一类是文档级别的文本特征表示,即将每个样本表示成固定长度的实数向量。相较于词级别的文本表示一般应用基于神经网络的分类,文档级别的文本表示应用更加广泛,既可以使用传统的基于统计的机器学习分类器,也可以应用神经网络分类器进行分类。文本数据中普遍存在着多种内部结构。例如,一个由计算机领域论文构成的数据集,其中一种内部结构是论文涉及的研究方向,包括机器学习、数据结构、数据库等方向;另一种内部结构则是论文所涉及到的编程语言,包括Java、C++、Python等编程语言。使用单一的文本特 ...
【技术保护点】
1.一种利用多样化文本特征进行文本分类的方法,其特征在于,包括如下步骤:步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示;步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示;步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;步骤4,通过新的文本特征表示对待分类样本进行分类。
【技术特征摘要】
1.一种利用多样化文本特征进行文本分类的方法,其特征在于,包括如下步骤:步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示;步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示;步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;步骤4,通过新的文本特征表示对待分类样本进行分类。2.根据权利要求1所述的方法,其特征在于,步骤1中,采用改进的Decorrelatedk-Means算法生成多组不同的文本特征表示,或者采用潜层狄利克雷分布LDA的衍生算法AlterLDA算法生成多组不同的文本特征表示。3.根据权利要求2所述的方法,其特征在于,步骤1中,采用改进的Decorrelatedk-Means算法生成多组不同的文本特征表示,具体包括如下步骤:步骤A-1,使用词袋模型+TF-IDF权重将数据集X转换成特征矩阵,聚类个数T=1;步骤A-2,使用k-Means聚类算法对数据集X进行聚类,得到数据的划分结果C1;步骤A-3,根据C1计算每个簇的均值向量αi,0≤i≤k1,k1为预设的参数,即超参,表示聚类中簇的个数,簇为聚类结果中被划分到一个类别中的相似样本的集合,均值向量的计算公式为:其中,表示第T组聚类的第i个簇,表示第T组聚类第i个簇中元素的个数,xj表示数据集X中第j个样本;步骤A-4,计算每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,样本的特征向量的维度为k1;步骤A-5,将T更新为T+1,随机对数据集X进行划分,得到划分结果CT;步骤A-6,根据根据CT计算每个簇的均值向量βj,0≤j≤kT,kT为簇的个数;步骤A-7,根据公式(1)对新生成的聚类结果中每个簇的表示向量vj进行更新:νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj(1)其中,vj为表示向量,ξj为中间参数,计算公式为:表示第k1个簇的均值向量,UΛUT=MMT,U是由矩阵MMT的特征向量构成的矩阵,Λ是由MMT的特征值构成的对角矩阵,I为单位矩阵,λ是模型输入的超参,是实数类型;nij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量,簇的表示向量用于计算样本的特征向量;步骤A-8,将每一个样本划分给距离其最近的表示向量对应的簇,更新CT;步骤A-9,重复步骤A-5到步骤A-8直到收敛;步骤A-10,α=α∪ν,α为保存的每组聚类结果中簇的表示向量,ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量,k1=||α||,计算每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,样本的特征向量的维度为k2;步骤A-11,重复步骤A-5到步骤A-10直到T>m,得到m组文本特征表示,m为期望得到的文本特征表示的数量。4.根据权利要求2所述的方法,其特征在于,步骤1中,使...
【专利技术属性】
技术研发人员:黄书剑,李念奇,戴新宇,张建兵,尹存燕,陈家骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。