【技术实现步骤摘要】
【技术保护点】
一种基于自动阈值鱼群算法的文本聚类方法,其特征在于包括以下步骤:(1)、对N个文本对象进行预处理,包括中文分词、去停用词、词频统计、特征项提取、文本向量化,得到文本对象的特征向量:xi=Σr=1Rlr,iar;(2)、根据N个文本对象的特征向量计算每个文本对象的初始等价划分阈值Thi,确定初始聚类数目和初始聚类中心:2.1)、计算文本对象的相似度矩阵S:其中,sim(xi,xj),1≤i≤N,1≤j≤N表示文本对象xi、xj之间的相似度;2.2)、将相似度矩阵S的每行元素按相似度从大到小排序,得到排序后的相似度矩阵S′:其中,sim(xi,xj′),1≤j′≤N ...
【技术特征摘要】
【专利技术属性】
技术研发人员:孙健,梁雪芬,徐杰,隆克平,艾丽丽,周云龙,唐明,王晓丽,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。