基于模糊聚类的网络文本数据检测方法技术

技术编号：4221030 阅读：265 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于模糊聚类的网络文本数据检测方法，先对提取的网络内容进行预处理；对需要聚类的预处理后网络内容进行特征提取后对网络内容进行聚类，设定初始聚类数。在聚类过程中，一个聚类数对应一个隶属度矩阵，每个隶属度矩阵都有一个平均信息熵值，平均信息熵基于密度函数选择初始聚类中心，算法迭代过程中修改聚类数，当平均信息熵达到最小值时，所对应的聚类数为最佳聚类数。最后将聚类结果返回给用户。本发明专利技术具有高效的智能聚类效果，并且可以根据应用的不同，调整聚类的精度，兼顾聚类的速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数据检测方法，尤其是一种网络文本数据的检测方法。
技术介绍
网络内容中有80%左右的信息是文本形式，所以对文本数据挖掘技术的研究成为数据挖掘中的一个日益流行且十分重要的研究课题。网络内容聚类是将网络内容中相似的文本分为一组的全自动处理过程，它是一个无监督学习过程。聚类的目的是将物理或抽象的对象，按对象间的相似性进行区分和分类。聚类方法按对数据划分的形式可分为划分时有明确的边界称为硬划分，即将数据划分到一个确定的类；没有明确的边界的划分称为模糊划分，即将给定数据以隶属度的形式表示属于哪几个类。我国文本智能分类的研究起始于20世纪80年代，大体经历了可行性探讨、辅助分类系统、自动分类系统三个阶段。中文文本分类还处于在试验研究阶段，正确分类率约为 70% -90%，正在逐渐向商业化的软件应用靠拢，并已经尝试开发了一批自动分类系统，例如清华大学吴军研制的自动分类系统、山西大学刘正瑛等人开发的金融自动分类系统、上海交大的西风文本自动分类系统。如何找到合理的应用并且在实践中逐步改善算法，提高性能成为文本分类算法的当务之急。通过文献检索发现，目前国内外常用的文本分类方法大多数是基于文本内容的相似度对文本进行分类。诸如基于概念的文档分类算法J-最近邻接参照分类算法(K-NN)、贝叶斯分类算法、基于语义网络的概念推理网分类算法以及决策树和支持向量机(SVM)等方法。基于这些方法的网络内容分类系统大都是基于平面的分类，即多采用基于词或词串信息的动态聚类方法和基于特征属性的分类技术来实现，挖掘的深度不够，执行速度慢，聚类的准确度较...

【技术保护点】
基于模糊聚类的网络文本数据检测方法，其特征在于包括下述步骤：（１）首先对原始的网络文本进行分词，然后计算每个词出现的频率，删除所有出现频率超过１０的功能词；（２）应用向量空间模型作为网络内容特征的表示方法，将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重，将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量，将网络内容空间作为一组正交词条向量所组成的向量空间；词条向量Ｖ（ｄ）＝（ｔ↓［ｉ］，ｗ↓［ｉ］（ｄ）；ｉ＝１，２，．．．，ｎ），其中，ｎ表类中心，否则令ｂ＝ｂ＋１，并转向步骤３；步骤５，计算平均信息熵Ｈ＝＊＊｛［ｕ↓［ｉｊ］×Ｉｂ（ｕ↓［ｉｊ］）＋（１－ｕ↓［ｉｊ］）×Ｉｂ（１－ｕ↓［ｉｊ］）］／ｎ｝，其中Ｉ表示熵的计算；以步骤４的输出为输入，当平均信息熵达到最小值时，所对应的聚类数即为最佳聚类数，聚类过程结束，保存最终聚类数目ｃ以及聚类中心Ｃ↓［ｉ］，ｉ＝１，２．．．，ｃ；否则，令ｃ＝ｃ＋１并转向步骤２；（４）将聚类结果返回给用户，聚类结果包括聚类中心的数目以及聚类中心。示降维和分词后整个网络文档的词条数目，ｄ表示此网络文档，ｔ↓［ｉ］为词条项，ｗ...

【技术特征摘要】

【专利技术属性】
技术研发人员：赵安军，王磊，王礼，杨宗良，
申请(专利权)人：陕西鼎泰科技发展有限责任公司，
类型：发明
国别省市：87[中国|西安]

全部详细技术资料下载我是这个专利的主人