基于模糊聚类的网络文本数据检测方法技术

技术编号:4221030 阅读:265 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于模糊聚类的网络文本数据检测方法,先对提取的网络内容进行预处理;对需要聚类的预处理后网络内容进行特征提取后对网络内容进行聚类,设定初始聚类数。在聚类过程中,一个聚类数对应一个隶属度矩阵,每个隶属度矩阵都有一个平均信息熵值,平均信息熵基于密度函数选择初始聚类中心,算法迭代过程中修改聚类数,当平均信息熵达到最小值时,所对应的聚类数为最佳聚类数。最后将聚类结果返回给用户。本发明专利技术具有高效的智能聚类效果,并且可以根据应用的不同,调整聚类的精度,兼顾聚类的速度。

【技术实现步骤摘要】

本专利技术涉及一种数据检测方法,尤其是一种网络文本数据的检测方法。
技术介绍
网络内容中有80%左右的信息是文本形式,所以对文本数据挖掘技术的研究成为 数据挖掘中的一个日益流行且十分重要的研究课题。网络内容聚类是将网络内容中相似的 文本分为一组的全自动处理过程,它是一个无监督学习过程。聚类的目的是将物理或抽象 的对象,按对象间的相似性进行区分和分类。聚类方法按对数据划分的形式可分为划分时 有明确的边界称为硬划分,即将数据划分到一个确定的类;没有明确的边界的划分称为模 糊划分,即将给定数据以隶属度的形式表示属于哪几个类。 我国文本智能分类的研究起始于20世纪80年代,大体经历了可行性探讨、辅助分 类系统、自动分类系统三个阶段。中文文本分类还处于在试验研究阶段,正确分类率约为 70% -90%,正在逐渐向商业化的软件应用靠拢,并已经尝试开发了一批自动分类系统,例 如清华大学吴军研制的自动分类系统、山西大学刘正瑛等人开发的金融自动分类系统、上海交大的西风文本自动分类系统。如何找到合理的应用并且在实践中逐步改善算法,提高 性能成为文本分类算法的当务之急。通过文献检索发现,目前国内外常用的文本分类方法 大多数是基于文本内容的相似度对文本进行分类。诸如基于概念的文档分类算法J-最近 邻接参照分类算法(K-NN)、贝叶斯分类算法、基于语义网络的概念推理网分类算法以及决 策树和支持向量机(SVM)等方法。基于这些方法的网络内容分类系统大都是基于平面的分 类,即多采用基于词或词串信息的动态聚类方法和基于特征属性的分类技术来实现,挖掘 的深度不够,执行速度慢,聚类的准确度较低。
技术实现思路
为了克服现有技术挖掘的深度不够、执行速度慢、聚类的准确度较低等不足,本发 明提供一种,能够有效提高网络安全审计中对于文 本分类的精度与可靠性,从而改善网络内容中目标文本的获取效率,实现网络内容的智能 检索。 本专利技术解决其技术问题所采用的技术方案是首先对提取的网络内容进行预处 理;其次,对需要聚类的预处理后网络内容进行特征提取;然后,对网络内容进行聚类,设 定初始聚类数。在聚类过程中,一个聚类数对应一个隶属度矩阵,每个隶属度矩阵都有一个 平均信息熵值,平均信息熵基于密度函数选择初始聚类中心,算法迭代过程中修改聚类数, 当平均信息熵达到最小值时,所对应的聚类数为最佳聚类数。最后,将聚类结果返回给用 户。本专利技术具体包括以下步骤 (1)网络内容预处理如果以原始的网络内容作为特征向量提取的对象,那么,网 络内容的特征向量维数会相当大,因此,必须进行降维的处理。降维的方法采用特征抽取方式,首先对原始的网络文本进行分词,然后,计算每个词出现的频率,删除所有出现频率超 过10的功能词,从而降低网络内容特征提取时所获取特征向量的维度。由于特征向量维数 降低,不但能加快聚类算法计算的速度,而且还能提高分类结果的精度和避免重复匹配问 题。 (2)网络内容特征提取应用向量空间模型作为网络内容特征的表示方法。在该 模型中,网络内容空间被看作是由一组正交词条向量所组成的向量空间。所述的词条向量 是指将每次捕获到网络流的网络内容作为一篇网络内容文档,经过步骤(1)的网络内容预 处理后,将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重, 将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。词条向量表示 为V(d) = (ti,Wi(d) ;i = 1,2,...,n),其中,n表示降维和分词后整个网络文档的词条数 目,d表示此网络文档,ti为词条项,Wi(d)为词条在此网络内容文档中所占的权重,被定义 为ti在d中出现的频率。 (3)模糊聚类现有技术的模糊聚类方法存在对孤立点数据比较敏感,须预先指 定聚类数目和模糊加权指数的缺陷。为降低孤立点对聚类结果的影响,本专利技术对数据对象 的隶属度增加一个权值,使隶属度的值高的数据对象对聚类中心位置的影响增大,隶属度 小的数据对象降低它们对聚类中心的影响。模糊聚类的具体步骤如下 步骤l,设定初始聚类数为C,初始聚类数大于等于2即可,一般选取2 ;将迭代次 数b设置为零,并且选择指数权重m和迭代停止阈值e ,指数权重m的选择范围在1. 5到 2. 5之间,在此方法中,选择指数权重m为1. 9,迭代停止阈值e的选择范围在O. 1到O. 001 之间,在这里考虑到算法的执行速度和聚类的精度,e选择O.Ol。 步骤2,由于聚类结果受到初始聚类数目和初始聚类中心的影响,本专利技术采用 基于密度函数选择初始聚类中心的方法。对于网络内容空间中具有n个样本的数据集1合X二 {Xi, i = L2, ...,1!},在^处的密度函数定义为"°)=5]1 + A +/其中,fd= l/rd2, rd为类密度有效邻域半径,r广"^入Pllx,—x』,a与样本集合分布特性有关,取值范围为,在邻域半径rd之外的数据点对A的密度的计算影响很 小。密度函数越大,表示在点A的周围聚集的样本点越多,说明点A处的密度越大,从 而D,)的值越高。令"= ^^!););/ = 1,2,...,"},^*是对应01*的样本点,并且取为第一 个聚类中心。设"=maxCD广、/ = 1,2,…,"),xk*是对应Dk*的样本点,k = 1, 2, , c-l,<formula>formula see original document page 5</formula>XkM乍为第k个初始聚类中心。 步骤3,计算隶属度。通过公式^ (4)'"—、十算隶属度。其中,Uijb为在第<formula>formula see original document page 5</formula>次迭代中样本j属于类i的隶属度,b为迭代次数,m为指数权重,c为聚类数,表示第j 个元素到第i个聚类中心的欧式距离。为降低孤立点对聚类结果的影响,对计算获取隶属 度增加一个权值,形成新的隶属度,使隶属度值高的数据对象对聚类中心位置的影响增大, 对于隶属度小的数据对象则降低它们对聚类中心的影响。隶属度的改进公式为改进后的隶属度^;=為,,.+(1-义)《"的取值为, A取值与聚类精度和算法执行速度有关,使用时可以根据聚类的精度和聚类时间进行调整。当A = 1时,"J = Uij,当Uij = 0, "J = O,当Uij = l,Uij = 1。在区间的隶属度在改进后有一定程度的减少。在算法迭代过 程中,隶属度值越小,改进后隶属度相应减少地越明显,隶属度小的数据对象对聚类中心的 影响降低了 ;隶属度越大,改进后的隶属度相应减少的较小,这样就相对的提高隶属度值高 的数据对象对于聚类的中心位置的影响。 步骤4,更新聚类中心。根据上述计算的隶属度Uij以及通过权值形成的改进后隶 属度"J对聚类中心进行更新,更新公式为C广=-" , i = 1, 2, . . . , c, 为更新后的聚类中心,m为权重指数。并且通过lcf -C,6+1| < e判定迭代停止阈值的条件是否满足,如果满足,输出隶属度矩阵和形成的聚类中心,否则令b = b+l,并转向步骤3。 步骤5,本专利技术以隶属度的平均信息熵作为评判聚类数本文档来自技高网
...

【技术保护点】
基于模糊聚类的网络文本数据检测方法,其特征在于包括下述步骤:(1)首先对原始的网络文本进行分词,然后计算每个词出现的频率,删除所有出现频率超过10的功能词;(2)应用向量空间模型作为网络内容特征的表示方法,将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重,将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量,将网络内容空间作为一组正交词条向量所组成的向量空间;词条向量V(d)=(t↓[i],w↓[i](d);i=1,2,...,n),其中,n表类中心,否则令b=b+1,并转向步骤3;步骤5,计算平均信息熵H=**{[u↓[ij]×Ib(u↓[ij])+(1-u↓[ij])×Ib(1-u↓[ij])]/n},其中I表示熵的计算;以步骤4的输出为输入,当平均信息熵达到最小值时,所对应的聚类数即为最佳聚类数,聚类过程结束,保存最终聚类数目c以及聚类中心C↓[i],i=1,2...,c;否则,令c=c+1并转向步骤2;(4)将聚类结果返回给用户,聚类结果包括聚类中心的数目以及聚类中心。示降维和分词后整个网络文档的词条数目,d表示此网络文档,t↓[i]为词条项,w↓[i](d)为词条在此网络内容文档中所占的权重;(3)对网络内容进行模糊聚类,具体步骤如下:步骤1,设定初始聚类数C,C≥2;将迭代次数b设置为零,并且选择指数权重m和迭代停止阈值ε,m在1.5到2.5之间,ε在0.1到0.001之间;步骤2,对于网络内容空间中具有n个样本的数据集合X={x↓[l],l=1,2,...,n},在x↓[l]处的密度函数定义为:D↓[l]↑[(0)]=*1/(1+f↓[d].‖x↓[l]-x↓[k]‖↑[2]),其中,f↓[d]=1/r↓[d]↑[2],r↓[d]为类密度有效邻域半径,r↓[d]=α.1/2**‖x↓[l]-x↓[k]‖,α取值范围为[0,1];令D↓[1]↑[*]=max{D↓[l]↑[0];l=1,2,...,n},x↓[l]↑[*]是对应D↓[l]↑[*]的样本点,并且取为第一个聚类中心;设D↓[k]↑[*]=max(D↓[l]↑[k-1];l=1,2,...,n),x↓[k]↑[*]是对应D↓[k]↑[*]的样本点,k=1,2,...,c-1,D↓[l]↑[k]=D↓[l]↑[k-1]-D↓[k]↑[*]1/f↓[d].‖x↓[l]-x↓[k]↑[*]‖,x↓[k]↑[*]作为第...

【技术特征摘要】

【专利技术属性】
技术研发人员:赵安军王磊王礼杨宗良
申请(专利权)人:陕西鼎泰科技发展有限责任公司
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1