一种基于一致性聚类的Web文本分类方法技术

技术编号:8594085 阅读:327 留言:0更新日期:2013-04-18 07:18
本发明专利技术公开了基于一致性聚类的Web文本分类方法,包括:输入一段文字信息数据,其中包括n个文本;根据含有m个词汇的预设词库,对n个文本进行分词处理;根据每个文本中的分词在词库中出现的次数,制作每个文本的m维向量空间模型,n个文本组合在一起形成n×m的向量空间矩阵;在n×m的向量空间矩阵中随机提取n×m′的子矩阵,其中m′小于m,对n×m′子矩阵进行聚类分析;重复上述步骤r次,直到得到r个聚类分析结果;将r个聚类分析结果再进行聚类分析,得到最终聚类结果,这个最终聚类结果表征n个文本之间的归类关系,由此将n个文本分类。本方法能够克服聚类分析中的维度灾难,对海量文本数据进行分析,特别适合网络舆情监控等信息安全领域。

【技术实现步骤摘要】

本专利技术涉及文本分类方法,特别是基于一致性聚类的文本分类方法,属于数据挖掘、机器学习和商务智能领域,特别针对海量、异质、高维数据聚类,并可用于知识融合和知识重用。
技术介绍
文本数据作为重要的信息载体之一,尤其是随着互联网的普及和流行,正以惊人的速度增长。如何从这些庞杂的信息中快速有效地寻找满足需要的信息对人们来说是一个巨大的挑战。文本分类作为处理和组织大量文本数据的关键技术,能够很大程度上解决信息爆炸和信息杂乱所带来的问题。基于同类文档相似程度大,不同类的文档相似程度低的假设,文本分类目标是将一组文档分成多个簇,使得相同的簇内的文档具有较高的相似程度,不同簇的文档差别较大。由于无法获得类别标签,文本分类的本质属于聚类分析技术。然而文本数据具有海量、高维、稀疏等特点,使得单一的传统聚类算法在面对文本数据时,不仅表现不佳,而且运行耗时巨大。特别是随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。因此需要从网络信息采集系统从互联网上采集新闻、论坛、博客、评论等舆情信息,存储到采集信息数据库中,再通过舆情分析引擎负责对采集信息进行清洗、智能研判和加工,分析结果保存在舆情成果库中。舆情分析引擎依赖于智能分析技术和舆情知识库,其基础就是文本的聚类分析。
技术实现思路
针对上述技术缺陷,本专利技术提出。该方法以快速聚类法为核心,多次利用部分维度的文本数据获得多个聚类结果,进而利用一致性聚类方法最终获得具有高鲁棒性和高质量的文本分类结果。利用部分维度有可能得到质量较高的基础聚类结果,从一定程度上克服由高维导致的劣解;多个基础聚类结果通过一致性聚类方法进行组合提高结果的鲁棒性。一种基于一致性聚类的Web文本聚类方法,包括如下步骤步骤1:收集互联网上的文本数据。步骤2 :将文本数据进行分词处理。步骤3:停用词移除。步骤4:词干提取。步骤5 :针对每一条文本数据生成向量空间模型,X = {x」I < I < n},n为文本数据的数量。步骤6 :重复随机抽取一定百分比维度的文本数据,指定类别个数,利用快速聚类法使用余弦相似度距离进行聚类,得到基础聚类结果。用^表示第i个基础聚类结果,Ki表示^的类别个数,则TI= l>i,…,^ii,…,^irI表示r个所有基础聚类结果的集合。步骤7 :在基础聚类结果上生成0-1 二元矩阵。用丨表示由上述基础聚类结果得到的0-1 二元矩阵,b表示binary, n为样本个数,其生成方式如公式(I)所示本文档来自技高网...

【技术保护点】
一种基于一致性聚类的Web文本分类方法,其特征在于,包括以下步骤:步骤一,输入一段文字信息数据,其中包括n个文本;步骤二,根据含有m个词汇的预设词库,对n个文本进行分词处理;步骤三,根据每个文本中的分词在词库中出现的次数,制作每个文本的m维向量空间模型,n个文本组合在一起形成n×m的向量空间矩阵;步骤四,在n×m的向量空间矩阵中随机提取n×m′的子矩阵,其中m′小于m,对n×m′子矩阵进行聚类分析;步骤五,重复步骤四r次,直到得到r个聚类分析结果;步骤六,将r个聚类分析结果再进行聚类分析,得到最终聚类结果,这个最终聚类结果表征n个文本之间的归类关系,由此将n个文本分类。

【技术特征摘要】
1.一种基于一致性聚类的Web文本分类方法,其特征在于,包括以下步骤步骤一,输入一段文字信息数据,其中包括η个文本;步骤二,根据含有m个词汇的预设词库,对η个文本进行分词处理;步骤三,根据每个文本中的分词在词库中出现的次数,制作每个文本的m维向量空间模型,η个文本组合在一起形成nXm的向量空间矩阵;步骤四,在nXm的向量空间矩阵中随机提取nXm'的子矩阵,其中m'小于m,对 nXm'子矩阵进行聚类分析;步骤五,重复步骤四r次,直到得到r个聚类分析结果;步骤六,将r个聚类分析结果再进行聚类分析,得到最终聚类结果,这个最终聚类结果表征η个文本之间的归类关系,由此将η个文本分类。2.如权利要求1所述的基于一致性聚类的Web文本分类方法,其特征在于,所述步骤一中的文字信息数据来源于在互联网上抓取一预设时间段内的文字信息数据。3.如权利要求2所述的基于一致性聚类的Web文本分类方法,其特征在于,所述在互联网上抓取一预设时间段内的文字信息数据包括抓取特定网站、论坛、博客或微博中的Web 文本数据。4.如权利要求3所述的基于一致性聚类的Web文本分类方法,其特征在于,在权利要求1所述步骤二中,对每个文本进行分词处理都包括以下步骤1)去掉Web文本的所有格式标签;2)去掉无标签文本中的停止词;3)根据预设词库中的词汇,按照文本文字从前...

【专利技术属性】
技术研发人员:吴俊杰刘洪甫李红韩小汀
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1