【技术实现步骤摘要】
本专利技术涉及聚类,尤其涉及一种分批聚类方法和系统。
技术介绍
随着网络的发展,网络上重复信息越来越多。如何对这些同类网页进行区分就变的非常重要。对网页的区分,通常采用聚类的方法来实现。现在通用的聚类算法聚类的效果都有各自的瓶颈和缺陷。传统的聚类分析计算方法主要有划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法,其中,划分方法的代表算法有K-MEANS算法,层次方法的代表算法有 HAC(Hierarchical Agglomerative Clustering,层次凝聚聚类)算法。 传统的聚类方法已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;②高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。
技术实现思路
本专利技术实施例 ...
【技术保护点】
一种分批聚类方法,其中,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:王新文,张姝,贾文杰,夏迎炬,孟遥,于浩,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。