一种基于自动阈值鱼群算法的文本聚类方法技术

技术编号:8765579 阅读:240 留言:0更新日期:2013-06-07 22:52
本发明专利技术公开了一种基于自动阈值鱼群算法的文本聚类方法,通过计算文本特征向量的相似度矩阵,采用相似度矩阵的每行元素获得每个文本的初始等价划分阈值,从而对文本进行初始等价划分,进而确定初始聚类数目和初始聚类中心;结合采用人工鱼群算法,根据全局最优和局部最优信息更新每条人工鱼的状态,以寻找全局最优聚类中心,对初始聚类结果再聚类。由于采用自动获取阈值的方法得到初始聚类数目和初始聚类中心,并通过人工鱼群算法寻找全局最优聚类中心,本发明专利技术克服了传统聚类方法对初值敏感、仅依靠局部数据特性等弊端,可提高文本聚类的准确度与智能性。

【技术实现步骤摘要】

【技术保护点】
一种基于自动阈值鱼群算法的文本聚类方法,其特征在于包括以下步骤:(1)、对N个文本对象进行预处理,包括中文分词、去停用词、词频统计、特征项提取、文本向量化,得到文本对象的特征向量:xi=Σr=1Rlr,iar;(2)、根据N个文本对象的特征向量计算每个文本对象的初始等价划分阈值Thi,确定初始聚类数目和初始聚类中心:2.1)、计算文本对象的相似度矩阵S:其中,sim(xi,xj),1≤i≤N,1≤j≤N表示文本对象xi、xj之间的相似度;2.2)、将相似度矩阵S的每行元素按相似度从大到小排序,得到排序后的相似度矩阵S′:其中,sim(xi,xj′),1≤j′≤N表示经排序后文本对象...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙健梁雪芬徐杰隆克平艾丽丽周云龙唐明王晓丽
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1