当前位置: 首页 > 专利查询>南京大学专利>正文

一种利用多样化文本特征进行文本分类的方法技术

技术编号:19177680 阅读:47 留言:0更新日期:2018-10-17 00:25
本发明专利技术公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明专利技术对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。

A method of text categorization based on diversified text features

The invention discloses a method for text categorization by using a variety of text features, which comprises the following steps: using a multi-dimensional text representation algorithm to generate multiple sets of different text feature representations, i.e. vertically generating a multi-dimensional text feature representation; and using a variety of different text representation algorithms to generate multiple sets of different text features Feature representation, that is, multi-dimensional text feature representation is generated horizontally; different feature representation vectors of each sample are combined as new feature vectors of the sample, and then a new feature representation of the data set is obtained. The present invention improves the existing text representation algorithm, and proposes using more text representations with lower dimension and larger difference to mine different internal structures of text, enhance the ability of text representation, greatly reduce the dimension of text features, and enhance the effect of text classification and other tasks.

【技术实现步骤摘要】
一种利用多样化文本特征进行文本分类的方法
本专利技术属于文本表示领域,尤其涉及一种利用多样化文本特征进行文本分类的方法。
技术介绍
近年来,随着计算机技术与互联网的迅猛发展,人类进入信息时代,海量的数据,尤其是各类文本数据,蕴含着重要的信息与巨大的价值。对这些文本数据进行合理的整理归纳,有利于更好的利用这些大规模的文本数据。文本分类则是一种非常有效的方法。文本分类一直是机器学习与人工智能领域一个非常重要的基础研究方向,同时也在产业界中有着广泛的应用。文本分类的效果在极大程度上取决于文本特征表示的质量。人类可以阅读的纯文本,对于机器学习算法而言是无法直接识别并利用的,需要转换成算法可以识别的实数向量或矩阵的形式。文本特征表示就是将纯文本转换成实数向量或矩阵的过程,即将语言进行数字化转换。文本特征表示主要分为两大类:一类是词级别的文本特征表示,即将词表示成词向量的形式,进而应用于文本分类等任务。该方法一般认为可以获取到词的语义信息,通过将词的语义信息添加到文本分类中来提升文本分类的效果;另一类是文档级别的文本特征表示,即将每个样本表示成固定长度的实数向量。相较于词级别的文本表示一般应用基于神经网络的分类,文档级别的文本表示应用更加广泛,既可以使用传统的基于统计的机器学习分类器,也可以应用神经网络分类器进行分类。文本数据中普遍存在着多种内部结构。例如,一个由计算机领域论文构成的数据集,其中一种内部结构是论文涉及的研究方向,包括机器学习、数据结构、数据库等方向;另一种内部结构则是论文所涉及到的编程语言,包括Java、C++、Python等编程语言。使用单一的文本特征表示,无法很好的挖掘到数据集中的多种内部结构,并对这些内部结构进行特征表示。在机器学习领域,多聚类算法是常见的用于挖掘数据多种内部结构的方法。多聚类算法生成多组差异较大、质量较好的聚类结果,以此来挖掘数据内部的多种结构。如果能够将多聚类的思想应用到文本特征表示中,挖掘文本的多种内部结构,并强化每种内部结构的表示,则可以提高文本表示的质量,进而对文本分类等任务带来更有效的帮助。
技术实现思路
专利技术目的:本专利技术所解决的问题是针对现有技术的不足,提供一种能够挖掘文本多种内部结构,生成多样化的文本表示,以增强文本表示能力的方法。为了解决上述技术问题,本专利技术提供了如下技术方案:一种利用多样化文本特征进行文本分类的方法,进而提升文本分类等任务效果的方法。所述方法包含纵向多维度文本表示与横向多维度文本表示两种获取多样化文本特征表示的方法。所述方法包括如下步骤:步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示,多维度文本表示算法可以为数据集中的每一个样本生成多个差异较大的特征向量;步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示,文本表示算法包含且不仅限于多维度文本表示算法;步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;步骤4,通过新的文本特征表示对待分类样本进行分类。步骤1中,采用改进的Decorrelatedk-Means算法生成多组不同的文本特征表示,或者采用潜层狄利克雷分布(LatentDirichletAllocation,LDA)(BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].JMachineLearningResearchArchive,2003,3:993-1022.)的衍生算法AlterLDA算法生成多组不同的文本特征表示。步骤1中,采用改进的Decorrelatedk-Means算法生成多组不同的文本特征表示,具体包括如下步骤:步骤A-1,使用词袋模型+TF-IDF权重(https://en.wikipedia.org/wiki/Tf-idf)将数据集X转换成特征矩阵,聚类个数T=1,下文中所述样本均为数据集X中的样本;步骤A-2,使用k-Means聚类算法(HartiganJA.AK-MeansClusteringAlgorithm[J].ApplStat,1979,28(1):100-108.)对数据集X进行聚类,得到数据的划分结果C1;步骤A-3,根据C1计算每个簇的均值向量αi,0≤i≤k1,k1为预设的参数,即超参,表示聚类中簇的个数,簇为聚类结果中被划分到一个类别中的相似样本的集合,均值向量的计算公式为:其中,表示第T组聚类的第i个簇,表示第T组聚类第i个簇中元素的个数,xj表示数据集X中第j个样本;步骤A-4,计算每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,样本的特征向量的维度为k1;步骤A-5,将T更新为T+1,随机对数据集X进行划分,得到划分结果CT;步骤A-6,根据根据CT计算每个簇的均值向量βj,0≤j≤kT,kT为簇的个数;步骤A-7,根据公式(1)对新生成的聚类结果中每个簇的表示向量vj进行更新:νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj(1)其中,vj为表示向量,ξj为中间参数,计算公式为:表示第k1个簇的均值向量,UΛUT=MMT,U是由矩阵MMT的特征向量构成的矩阵,Λ是由MMT的特征值构成的对角矩阵,I为单位矩阵,λ是模型输入的超参,是实数类型,可以根据实际任务人工设定,nij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量,簇的表示向量用于计算样本的特征向量;步骤A-8,将每一个样本划分给距离其最近的表示向量对应的簇,更新CT;步骤A-9,重复步骤A-5到步骤A-8直到收敛;步骤A-10,α=α∪ν,α为保存的每组聚类结果中簇的表示向量,ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量,k1=||α||,计算每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,样本的特征向量的维度为k2;步骤A-11,重复步骤A-5到步骤A-10直到T>m,得到m组文本特征表示,m为期望得到的文本特征表示的数量,可根据具体使用场景预先设定。步骤1中,还可以使用潜层狄利克雷分布(LatentDirichletAllocation,LDA)的衍生算法AlterLDA算法生成多组不同的文本特征表示,具体包括如下步骤:步骤B-1,利用潜层狄利克雷分布(LatentDirichletAllocation,LDA)算法,根据数据集X得到词的主题分布β(1),文档的主题分布作为第一组文本的特征表示,设置文本特征个数T=1;步骤B-2,根据变分EM算法,采用与LDA算法中相同的E步骤进行计算,求得变分参数φ与γ,更新文档主题分布(BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].JMachineLearningResearchArchive,2003,3:993-1022.);步骤B-3,利用牛顿-拉夫逊方法,更新模型参数α(https://en.wikipedia.org/wiki/Newton%27s_method);步骤B-4,利用公式(2)更新模型参数β:其中,βij为在第i个主题下,词典中第j个词的概率,词典是数据集X中所有词构成的列表,每个词只在词典中出现本文档来自技高网
...

【技术保护点】
1.一种利用多样化文本特征进行文本分类的方法,其特征在于,包括如下步骤:步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示;步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示;步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;步骤4,通过新的文本特征表示对待分类样本进行分类。

【技术特征摘要】
1.一种利用多样化文本特征进行文本分类的方法,其特征在于,包括如下步骤:步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示;步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示;步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;步骤4,通过新的文本特征表示对待分类样本进行分类。2.根据权利要求1所述的方法,其特征在于,步骤1中,采用改进的Decorrelatedk-Means算法生成多组不同的文本特征表示,或者采用潜层狄利克雷分布LDA的衍生算法AlterLDA算法生成多组不同的文本特征表示。3.根据权利要求2所述的方法,其特征在于,步骤1中,采用改进的Decorrelatedk-Means算法生成多组不同的文本特征表示,具体包括如下步骤:步骤A-1,使用词袋模型+TF-IDF权重将数据集X转换成特征矩阵,聚类个数T=1;步骤A-2,使用k-Means聚类算法对数据集X进行聚类,得到数据的划分结果C1;步骤A-3,根据C1计算每个簇的均值向量αi,0≤i≤k1,k1为预设的参数,即超参,表示聚类中簇的个数,簇为聚类结果中被划分到一个类别中的相似样本的集合,均值向量的计算公式为:其中,表示第T组聚类的第i个簇,表示第T组聚类第i个簇中元素的个数,xj表示数据集X中第j个样本;步骤A-4,计算每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,样本的特征向量的维度为k1;步骤A-5,将T更新为T+1,随机对数据集X进行划分,得到划分结果CT;步骤A-6,根据根据CT计算每个簇的均值向量βj,0≤j≤kT,kT为簇的个数;步骤A-7,根据公式(1)对新生成的聚类结果中每个簇的表示向量vj进行更新:νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj(1)其中,vj为表示向量,ξj为中间参数,计算公式为:表示第k1个簇的均值向量,UΛUT=MMT,U是由矩阵MMT的特征向量构成的矩阵,Λ是由MMT的特征值构成的对角矩阵,I为单位矩阵,λ是模型输入的超参,是实数类型;nij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量,簇的表示向量用于计算样本的特征向量;步骤A-8,将每一个样本划分给距离其最近的表示向量对应的簇,更新CT;步骤A-9,重复步骤A-5到步骤A-8直到收敛;步骤A-10,α=α∪ν,α为保存的每组聚类结果中簇的表示向量,ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量,k1=||α||,计算每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,样本的特征向量的维度为k2;步骤A-11,重复步骤A-5到步骤A-10直到T>m,得到m组文本特征表示,m为期望得到的文本特征表示的数量。4.根据权利要求2所述的方法,其特征在于,步骤1中,使...

【专利技术属性】
技术研发人员:黄书剑李念奇戴新宇张建兵尹存燕陈家骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1