一种基于自动阈值鱼群算法的文本聚类方法技术

技术编号:8765579 阅读:213 留言:0更新日期:2013-06-07 22:52
本发明专利技术公开了一种基于自动阈值鱼群算法的文本聚类方法,通过计算文本特征向量的相似度矩阵,采用相似度矩阵的每行元素获得每个文本的初始等价划分阈值,从而对文本进行初始等价划分,进而确定初始聚类数目和初始聚类中心;结合采用人工鱼群算法,根据全局最优和局部最优信息更新每条人工鱼的状态,以寻找全局最优聚类中心,对初始聚类结果再聚类。由于采用自动获取阈值的方法得到初始聚类数目和初始聚类中心,并通过人工鱼群算法寻找全局最优聚类中心,本发明专利技术克服了传统聚类方法对初值敏感、仅依靠局部数据特性等弊端,可提高文本聚类的准确度与智能性。

【技术实现步骤摘要】

【技术保护点】
一种基于自动阈值鱼群算法的文本聚类方法,其特征在于包括以下步骤:(1)、对N个文本对象进行预处理,包括中文分词、去停用词、词频统计、特征项提取、文本向量化,得到文本对象的特征向量:xi=Σr=1Rlr,iar;(2)、根据N个文本对象的特征向量计算每个文本对象的初始等价划分阈值Thi,确定初始聚类数目和初始聚类中心:2.1)、计算文本对象的相似度矩阵S:其中,sim(xi,xj),1≤i≤N,1≤j≤N表示文本对象xi、xj之间的相似度;2.2)、将相似度矩阵S的每行元素按相似度从大到小排序,得到排序后的相似度矩阵S′:其中,sim(xi,xj′),1≤j′≤N表示经排序后文本对象xi与xj′之间的相似度;初始等价划分阈值Thi的计算公式为:Thi={sim(xi,xj′)|Maxj′[sim(xi,xj′)-sim(xi,xj′+1)]},j′∈{1,2...,N-1}2.3)、根据相似度矩阵S和初始等价划分阈值Thi计算每个文本的初始等价划分Ri:Ri={{Pi},{U?Pi}}其中,Pi={xjsim(xi,xj)≥Thi},U={x1,x2,…,xi,…,xN};2.4)、根据每个文本的初始等价划分Ri进行初始聚类,得到初始聚类结果 CR:CR=R1∩R2∩…∩Ri∩…∩RN={c1,c2,…,cK}其中,ck,1≤k≤K表示初始聚类结果中的一个类,K为初始聚类数目,将ck中所有文本对象特征向量的平均值作为初始第k类的聚类中心xck,初始聚类中心xck的计算公式为:xck=Σr=1Rlr,k‾ar其中p表示ck类中文本对象的个数,lr,s表示ck类中第s,1≤s≤pk个文本对象特征向量中第r个特征项的权值,是ck类中的所有文本对象特征向量中第r个特征项的权值之和;(3)、采用人工鱼群算法对步骤(2)得到的初始聚类结果进行再聚类:3.1)、设置人工鱼条数Total与各人工鱼的初始状态,第m条人工鱼的状态Qm,m=1,2,…,Total为数据空间中的向量,其形式与文本对象的特征向量一致;设置最大重复尝试次数TryNumber、最大迭代次数IT、将K个初始聚类中心作为初始全局最优人工鱼状态Qbest_af,k,1≤k≤K;3.2)、对人工鱼状态进行迭代更新:在第t,1≤t≤IT次迭代更新时,依次对每条人工鱼状态进行更新,第m条人工鱼的状态为计算其适应度值Ymt=num(Qmt)π*Visual2其中,表示迭代次数为t时第m条人工鱼的适应度值,表示迭代次数为t时第m条人工鱼视野范围内的文本对象个数;此时前m?1条人工鱼已完成状态更新,即当前时刻其状态为当前时刻全局最优人工鱼状态记为其中离人工 鱼距离最近的全局最优人工鱼状态记为第m条人工鱼分别模拟执行以下三种行为:a.觅食行为:在第m条人工鱼视野范围内随机选择一个状态若则第m条人工鱼向和的向量方向前进一步:Qmt+1=Qmt+((Qnt-Qmt)+(Qnear,mt-Qmt)||(Qnt-Qmt)+(Qnear,mt-Qmt)||)·Step·Rand()其中,Rand()是一个介于0和1之间的随机数;反之,则更新随机选择状态判断是否满足前进条件;如果重复尝试次数达到TryNumber次后仍不满足条件,则第m条人工鱼随机移动一步:Qmt+1=Qmt+Visual·Rand()b.聚群行为在当前时刻的所有人工鱼状态中,计算第m条人工鱼视野范围内的人工鱼同伴数目同伴中心为及其视野范围内同伴的状态的平均值,同伴中心的适应度值为若则第m条人工鱼向和的向量方向前进一步:Qmt+1=Qmt+((Qc,mt-Qmt)+(Qnear,mt-Qmt)||(Qc,mt-Qmt)+(Qnear,mt-Qmt)||)·Step·Rand();否则第m条人工鱼再重新执行一次觅食聚群行为;c.追尾行为:在当前时刻的所有人工鱼状态中,比较第m条人工鱼视野范围内各人工鱼同伴的适应度值,找到适应度最大值及其对应的同伴状态若则第m条人工鱼向和的向量方向前进一步:Qmt+1=Qmt+((Qmax,mt-Qmt)+(Qmear,mt-Qmt)||(Qmax,mt-Qmt)+(Qmear,mt-Qmt)||)·Step·Rand()否则第m条人工鱼再重新...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙健梁雪芬徐杰隆克平艾丽丽周云龙唐明王晓丽
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1