一种基于聚类和隶属度融合的改进型文本分类算法制造技术

技术编号:13829766 阅读:124 留言:0更新日期:2016-10-13 16:17
本发明专利技术公开了一种基于聚类和隶属度融合的改进型文本分类算法,该算法将待分类文本和训练文本集中的训练文本用向量空间表示,通过聚类算法将各个类别中的训练文本聚类,并合并同一个簇内的训练文本,形成新的文本向量,利用新的文本向量与待分类文本向量进行计算,从而得到待分类文本与各个类别的相似度以及待分类文本隶属各个类别的程度,将两者相加,最大值对应的类别即为待分类文本的类别。聚类算法在不裁剪原始样本数量的基础上减少文本分类算法执行的时间复杂度,隶属度改进了待分类文本的分类判定方式,考虑训练文本密度对分类判定的影响,提高文本分类的准确率,本发明专利技术有效解决了文本分类的算法时间复杂度和分类准确率问题。

【技术实现步骤摘要】

本专利技术涉及一种适用于类域的交叉或重叠较多的文本分类算法,具体涉及一种基于聚类和隶属度融合的改进型文本分类算法,属于文本分类

技术介绍
随着文本数据信息的指数增长,文本分类技术在现代信息处理领域得到广泛发展,涉及的领域包括垃圾邮件过滤、新闻分类、电子商务、网络舆情监控等。文本分类方法根据其内容所包含的知识、特点、模式将自然语言描述的文本进行特征提取,表示成机器可识别的语言,并为文本建立描述模型。目前的文本描述模型主要包括布尔逻辑模型(Boolean Model)、向量空间模型(Vector Space Model,VSM)、概率模型(Probabilistic Model)、概念模型(Conceptual Model)等。通过各种文本分类算法,可根据文本特征自动划分文档所属类别。目前的文本分类算法有朴素贝叶斯(Native Bayes)、K邻近算法(K Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、人工神经网络(Artificial Neural Network,ANN)等。其中大多数方法采用向量空间模型(VSM)将文本向量化为向量空间的点,采用向量夹角距离,向量内积或者欧几里得几何距离判定文本相似度。朴素贝叶斯是基于统计的文本分类方法,对文本数据和数值数据的分类效果较好,但是只有在各个属性之间相互独立的条件成立时才能实现较高准确度分类,否则准确度可能较低;支持向量机是基于统计的机器学习方法,准确率高,对高维数据和稀疏数据不敏感,且能很好获得文本的内在特征,但是对于非线性问题,核函数选择很困难;人工神经网络是基于连接的方法,模拟人脑神经系统的组织特点构成信息处理系统,具有很强的鲁棒性和容错性,适应性好,运行速度快,但是算法复杂度高,构造复杂,规模庞大;KNN算法是基于统计的分类方法和经典的统计模式识别方法,在向量空间模型下有最好的分类效果,思路简单,容易实现,但是在计算相似度时特征向量维数高,影响计算时间且各维权值和维数密度影响分类精度。近年来许多学者提出对文本分类算法的诸多改进,一般是针对训练文本集的规模进行缩减以降低文本分类算法的时间复杂度。例如利用基于密度的样本裁剪方法以降低文本分类的计算量;利用基于隐含语义的改进算法使得词与文档的语义关系加强,向量空间大幅度缩减,提高文本分类的准确率;选择样本基准点,根据样本距离建立索引表以缩小查找范围,提高分类速度;使用基于特征词缩减的文本分类改进方法提高分类效率和性能。这些改进的文本分类算法直接降低样本维数以减少计算量或者减少样本数量,从而提高分类效率。特征维数的减少或样本裁剪过多都会引起分类的准确率严重下降。此外,对于文本分类算法本身,在进行分类时训练样本分布密度的影响,单纯利用个训练样本的相似度相加或者计算待分类文本与每个类别中心向量的相似度并不足以大幅度减少分类判定时造成的误差。目前,还没有在训练集样本数量以及样本分布密度方面综合考虑的文本分类算法。
技术实现思路
本专利技术所要解决的技术问题是:提供一种基于聚类和隶属度融合的改进型文本分类算法,将聚类算法和文本隶属度相结合,从而改进了文本分类算法的时间复杂度和准确率。本专利技术为解决上述技术问题采用以下技术方案:一种基于聚类和隶属度融合的改进型文本分类算法,包括如下步骤:步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;步骤6,将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加,选出最大值,该最大值对应的类别即为待分类文本的类别。作为本专利技术的一种优选方案,步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。作为本专利技术的一种优选方案,步骤1所述提取文本特征词的方法为CHI概率统计法。作为本专利技术的一种优选方案,步骤2所述每个类别聚类形成的簇数满足以下条件:该簇数小于训练文本数最少的类别中训练文本的个数,且该簇数大于M。作为本专利技术的一种优选方案,步骤4所述相似度sim的计算公式为: s i m ( O , T ) = 1 d ( O , T ) = 1 Σ i = 1 i = n ( x i - y i ) 2 , ]]>其中,O=(x1,x2,…,xn)表示待分类文本向量,T=(y1,y2,…,yn)表示新的文本向量,n表示维数,d(O,T)表示O与T的欧氏距离。作为本专利技术的一种优选方案,步骤5所述中心向量S和平均距离Dis的计算公式为: S j = Σ t = 1 本文档来自技高网
...

【技术保护点】
一种基于聚类和隶属度融合的改进型文本分类算法,其特征在于,包括如下步骤:步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;步骤6,将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加,选出最大值,该最大值对应的类别即为待分类文本的类别。...

【技术特征摘要】
1.一种基于聚类和隶属度融合的改进型文本分类算法,其特征在于,包括如下步骤:步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;步骤6,将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加,选出最大值,该最大值对应的类别即为待分类文本的类别。2.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。3.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述提取文本特征词的方法为CHI概率统计法。4.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤2所述每个类别聚类形成的簇数满足以下条件:该簇数小于训练文本数最少的类别中训练文本的个数,且该簇数大于M。5.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤4所述相似度sim的计算公式为: s i m ( O , T ) = 1 d ( O , T ) = 1 Σ i = 1 i = n ( x i - y i ) 2 , ]]>其中,O=(x1,x2,…,xn)表示待分类文本向量,T=(y1,y2,…,yn)表示新的文本向量,n表示维数,d(O,T)表示O与T的欧氏距...

【专利技术属性】
技术研发人员:徐小龙彭玉霞
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1