一种分批聚类方法和系统技术方案

技术编号:8190968 阅读:205 留言:0更新日期:2013-01-10 01:52
本发明专利技术实施例提供一种分批聚类方法和系统,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本实施例的分批聚类方法,通过对要聚类的文档进行分批聚类、批聚类结果的凝聚性处理以及批凝聚性处理结果的合并,提高了聚类性能,实现了增量式的聚类。

【技术实现步骤摘要】

本专利技术涉及聚类,尤其涉及一种分批聚类方法和系统
技术介绍
随着网络的发展,网络上重复信息越来越多。如何对这些同类网页进行区分就变的非常重要。对网页的区分,通常采用聚类的方法来实现。现在通用的聚类算法聚类的效果都有各自的瓶颈和缺陷。传统的聚类分析计算方法主要有划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法,其中,划分方法的代表算法有K-MEANS算法,层次方法的代表算法有 HAC(Hierarchical Agglomerative Clustering,层次凝聚聚类)算法。 传统的聚类方法已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;②高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。
技术实现思路
本专利技术实施例的目的在于提供一种分批聚类方法和系统,通过对要聚类的文档进行分批、聚类、批聚类结果的凝聚性处理、批聚类结果的合并,达到提高聚类性能的效果。根据本专利技术实施例的一个方面,提供了一种分批聚类方法,其中,所述方法包括按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。根据本专利技术实施例的另一方面,还提供了一种分批聚类系统,其中,所述系统包括分批单元,其按照预定策略对要聚类的文档进行分批;聚类单元,其对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;第一处理单元,其对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;合并单元,其将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本专利技术实施例的有益效果在于通过对分批聚类的结果进行凝聚性处理,凝聚性处理后再合并,提高了聚类的性能。通过将后续经过凝聚性处理的文档合并(添加)到已有的经过凝聚性处理的聚类结果当中,实现了增量式的聚类。参照后文的说明和附图,详细公开了本专利技术的特定实施方式,指明了本专利技术的原理可以被采用的方式。应该理解,本专利技术的实施方式在范围上并不因此受到限制。在所附权利要求的精神和条款的范围内,本专利技术的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明 所包括的附图用来提供对本专利技术的进一步的理解,其构成了说明书的一部分,例示了本专利技术的优选实施方式,并与文字说明一起用来解释本专利技术的原理,其中对于相同的要素,始终用相同的附图标记来表示。在附图中图I是本专利技术一个实施例的分批聚类方法的流程图;图2是图I所示实施例中对每一批文档的聚类结果进行凝聚性处理的流程图;图3是图2所示实施例中确定当前批次文档的每一个类中的每个文档对于该文档所属的类是否具有凝聚性的流程图;图4是图2所示实施例中确定所述不具有凝聚性的文档与当前批次文档的其他类是否具有凝聚性的流程图;图5是本专利技术另一个实施例的分批聚类方法的流程图;图6是图5所示实施例中对合并后的当前批次文档的每一类文档中除所述第一批文档以外的每一个文档进行凝聚性处理的流程图;图7是图6所示实施例中确定所述每一个文档对于该文档所属的类是否具有凝聚性的流程图;图8是图6所示实施例中确定所述不具有凝聚性的文档与当前批次文档的其他类是否具有凝聚性的流程图;图9是本专利技术实施例的分批聚类系统的组成示意图。具体实施例方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。实施例I图I为本专利技术实施例提供的一种分批聚类方法的流程图,请参照图1,该方法包括步骤101 :按照预定策略对要聚类的文档进行分批;其中,预定策略可以是按比例分批,也可以是其他,本实施例并不以此作为限制。其中,针对网络上网页的区分,考虑到搜索引擎返回结果的特点,也即越靠前的结果相关性越高,为了提高返回结果的聚类效果,本实施例可以先通过搜索引擎以给定查询关键词进行检索,将搜索引擎返回的结果作为要聚类的文档进行分批。如果是按比例分批,可以是按照一定的百分比和先后顺序对搜索引擎返回的搜索结果进行分批。例如,将搜索引擎返回的搜索结果中,前40%作为第一批,剩下的60%,均分为四批,按照从前到后的顺序分别称为第二批、第三 批、第四批和第五批。由于搜索引擎具有排序较前的搜索结果具有较好的凝聚性的特性,其中分批后的第一批的比重相对较大而且较为重要,因此可以将第一批称为首批。其中,对于搜索引擎直接返回的搜索结果,为了便于聚类,还需要进行聚类前的处理。在本实施例中,这里的聚类前的处理包括网页预处理、特征向量提取以及网页相似度计算。网页预处理是对网页进行内容抽取、有效url提取、标题提取等操作,把待聚类的网页按照一定的形式统一用xml文件格式保存。特征向量抽取是根据保存的xml文件,建立特征向量组,并给每个特征向量赋予权重。在这里,可以采用TFIDF方法或者其他方法来获得特征向量。网页相似度计算可以采用欧式距离公式,余弦距离公式等经典公式进行计算。以上聚类前的处理是聚类之前的一些常规的处理步骤,其具体的处理方式可以采用现有手段实现,在此不再赘述。步骤102 :对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;其中,可以通过常规的聚类方法对分批后的每一批文档进行聚类,得到批聚类结果,例如K-MEANS聚类算法、层次凝聚聚类算法、基于密度的聚类算法等。本实施例优选层次凝聚聚类算法。步骤103 :对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;其中,通过对批聚类结果进行凝聚性处理,使文档的分类更加明确,增加了聚类的性能。在步骤103的一个实施例中,对每一批文档的聚类结果进行凝聚性处理可以通过图2所示的方法来实现,请参照图2,该方法包括步骤201 :根据当前批次文档的所有类之间的相似度平均值,按照预定规则生成一个凝聚性阈值;其中,凝聚性阈值是判断文档与文档之间相似度的标准,其预定规则例如可以是将所述相似度平均值乘以一个系数再加上一个平滑值,作为该批次文档的凝聚性阈值,也可以是其他规则,本实施例并不以此作为限制。步骤202 :根据所述凝聚性阈值,确定当前批次文档的每一个类中的每个文档对于该文档所属的类是否具有凝聚性;其中,确定每个文档对于该文档所属的类是否具有凝聚性,也就是对聚类本文档来自技高网...

【技术保护点】
一种分批聚类方法,其中,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:王新文张姝贾文杰夏迎炬孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1