一种基于一致性聚类的Web文本分类方法技术

技术编号：8594085 阅读：337 留言：0更新日期：2013-04-18 07:18

本发明专利技术公开了基于一致性聚类的Web文本分类方法，包括：输入一段文字信息数据，其中包括n个文本；根据含有m个词汇的预设词库，对n个文本进行分词处理；根据每个文本中的分词在词库中出现的次数，制作每个文本的m维向量空间模型，n个文本组合在一起形成n×m的向量空间矩阵；在n×m的向量空间矩阵中随机提取n×m′的子矩阵，其中m′小于m，对n×m′子矩阵进行聚类分析；重复上述步骤r次，直到得到r个聚类分析结果；将r个聚类分析结果再进行聚类分析，得到最终聚类结果，这个最终聚类结果表征n个文本之间的归类关系，由此将n个文本分类。本方法能够克服聚类分析中的维度灾难，对海量文本数据进行分析，特别适合网络舆情监控等信息安全领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本分类方法，特别是基于一致性聚类的文本分类方法，属于数据挖掘、机器学习和商务智能领域，特别针对海量、异质、高维数据聚类，并可用于知识融合和知识重用。
技术介绍
文本数据作为重要的信息载体之一，尤其是随着互联网的普及和流行，正以惊人的速度增长。如何从这些庞杂的信息中快速有效地寻找满足需要的信息对人们来说是一个巨大的挑战。文本分类作为处理和组织大量文本数据的关键技术，能够很大程度上解决信息爆炸和信息杂乱所带来的问题。基于同类文档相似程度大，不同类的文档相似程度低的假设，文本分类目标是将一组文档分成多个簇，使得相同的簇内的文档具有较高的相似程度，不同簇的文档差别较大。由于无法获得类别标签，文本分类的本质属于聚类分析技术。然而文本数据具有海量、高维、稀疏等特点，使得单一的传统聚类算法在面对文本数据时，不仅表现不佳，而且运行耗时巨大。特别是随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国内还是国际重大事件，都能马上形成网上舆论，通过网络来表达观点、传播思想，进而产生巨大的舆论压力，达到...

【技术保护点】
一种基于一致性聚类的Web文本分类方法，其特征在于，包括以下步骤：步骤一，输入一段文字信息数据，其中包括n个文本；步骤二，根据含有m个词汇的预设词库，对n个文本进行分词处理；步骤三，根据每个文本中的分词在词库中出现的次数，制作每个文本的m维向量空间模型，n个文本组合在一起形成n×m的向量空间矩阵；步骤四，在n×m的向量空间矩阵中随机提取n×m′的子矩阵，其中m′小于m，对n×m′子矩阵进行聚类分析；步骤五，重复步骤四r次，直到得到r个聚类分析结果；步骤六，将r个聚类分析结果再进行聚类分析，得到最终聚类结果，这个最终聚类结果表征n个文本之间的归类关系，由此将n个文本分类。

【技术特征摘要】
1.一种基于一致性聚类的Web文本分类方法，其特征在于，包括以下步骤步骤一，输入一段文字信息数据，其中包括η个文本；步骤二，根据含有m个词汇的预设词库，对η个文本进行分词处理；步骤三，根据每个文本中的分词在词库中出现的次数，制作每个文本的m维向量空间模型，η个文本组合在一起形成nXm的向量空间矩阵；步骤四，在nXm的向量空间矩阵中随机提取nXm'的子矩阵，其中m'小于m，对 nXm'子矩阵进行聚类分析；步骤五，重复步骤四r次，直到得到r个聚类分析结果；步骤六，将r个聚类分析结果再进行聚类分析，得到最终聚类结果，这个最终聚类结果表征η个文本之间的归类关系，由此将η个文本分类。2.如权利要求1所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤一中的文字信息数据来源于在互联网上抓取一预设时间段内的文字信息数据。3.如权利要求2所述的基于一致性聚类的Web文本分类方法，其特征在于，所述在互联网上抓取一预设时间段内的文字信息数据包括抓取特定网站、论坛、博客或微博中的Web 文本数据。4.如权利要求3所述的基于一致性聚类的Web文本分类方法，其特征在于，在权利要求1所述步骤二中，对每个文本进行分词处理都包括以下步骤1)去掉Web文本的所有格式标签；2)去掉无标签文本中的停止词；3)根据预设词库中的词汇，按照文本文字从前...

【专利技术属性】
技术研发人员：吴俊杰，刘洪甫，李红，韩小汀，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人