【技术实现步骤摘要】
本专利技术涉及一种适用于类域的交叉或重叠较多的文本分类算法,具体涉及一种基于聚类和隶属度融合的改进型文本分类算法,属于文本分类
技术介绍
随着文本数据信息的指数增长,文本分类技术在现代信息处理领域得到广泛发展,涉及的领域包括垃圾邮件过滤、新闻分类、电子商务、网络舆情监控等。文本分类方法根据其内容所包含的知识、特点、模式将自然语言描述的文本进行特征提取,表示成机器可识别的语言,并为文本建立描述模型。目前的文本描述模型主要包括布尔逻辑模型(Boolean Model)、向量空间模型(Vector Space Model,VSM)、概率模型(Probabilistic Model)、概念模型(Conceptual Model)等。通过各种文本分类算法,可根据文本特征自动划分文档所属类别。目前的文本分类算法有朴素贝叶斯(Native Bayes)、K邻近算法(K Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、人工神经网络(Artificial Neural Network,ANN)等。其中大多数方法采用向量空间模型(VSM)将文本向量化为向量空间的点,采用向量夹角距离,向量内积或者欧几里得几何距离判定文本相似度。朴素贝叶斯是基于统计的文本分类方法,对文本数据和数值数据的分类效果较好,但是只有在各个属性之间相互独立的条件成立时才能实现较高准确度分类,否则准确度可能较低;支持向量机是基于统计的机器学习方法,准确率高,对高维数据和稀疏数据不敏感,且能很好获得文本的内在特征,但是对于非线性问题, ...
【技术保护点】
一种基于聚类和隶属度融合的改进型文本分类算法,其特征在于,包括如下步骤:步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;步骤 ...
【技术特征摘要】
1.一种基于聚类和隶属度融合的改进型文本分类算法,其特征在于,包括如下步骤:步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;步骤6,将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加,选出最大值,该最大值对应的类别即为待分类文本的类别。2.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。3.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述提取文本特征词的方法为CHI概率统计法。4.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤2所述每个类别聚类形成的簇数满足以下条件:该簇数小于训练文本数最少的类别中训练文本的个数,且该簇数大于M。5.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤4所述相似度sim的计算公式为: s i m ( O , T ) = 1 d ( O , T ) = 1 Σ i = 1 i = n ( x i - y i ) 2 , ]]>其中,O=(x1,x2,…,xn)表示待分类文本向量,T=(y1,y2,…,yn)表示新的文本向量,n表示维数,d(O,T)表示O与T的欧氏距...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。