【技术实现步骤摘要】
网页聚类方法及相关装置
[0001]本申请涉及网页聚类
,尤其涉及一种网页聚类方法及相关设备。
技术介绍
[0002]网页聚类问题的核心是网页间的相似程度的计算。根据计算方法的不同,有基于文本的聚类方法和基于网页结构的聚类方法。网页包含的文本内容是网页信息的直观载体,基于网页内容的聚类方法主要通过比较网页间的内容相似程度,作为判断网页相似的依据。现今的网页往往更多地使用图像元素,从而减少了文本的比重,导致网页的文本特征信息不够稳定。与文本内容相比,网页的结构信息更新周期较长,稳定性更高。基于结构的网页聚类,相关的方法是树编辑距离方法以及标签频率统计方法。
[0003]在相关的方法下,树编辑距离方法会存在由于求解过程复杂导致求解效率较低的问题;标签频率统计方法由于对节点层次和分布特征的考虑不足会导致聚类效果不够理想。
技术实现思路
[0004]有鉴于此,本申请的目的在于提出一种网页聚类方法及相关设备。
[0005]基于上述目的,本申请提供了一种网页聚类方法,包括:
[0006]获取待聚类网页数据集,对所述待聚类网页数据集中的每一个待聚类网页数据,按顺序执行以下聚类操作,以完成所述待聚类网页数据集中的全部待聚类网页数据的聚类:
[0007]响应于确定所述待聚类网页数据为第一个进行聚类的网页,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中;
[0008]响应于确定所述待聚类网页数据为非第一个进 ...
【技术保护点】
【技术特征摘要】
1.一种网页聚类方法,其特征在于,包括:获取待聚类网页数据集,对所述待聚类网页数据集中的每一个待聚类网页数据,按顺序执行以下聚类操作,以完成所述待聚类网页数据集中的全部待聚类网页数据的聚类:响应于确定所述待聚类网页数据为第一个进行聚类的网页,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中;响应于确定所述待聚类网页数据为非第一个进行聚类的网页,将所述簇列表中所述簇心的文档对象模型DOM树尺寸中与所述待聚类网页数据的DOM树尺寸的差值小于第一阈值的所述簇心作为预选簇心;分别计算所述待聚类网页数据与每一个所述预选簇心的层次分布距离,所述层次分布距离用于表示所述网页的文档对象模型DOM树的相似程度,响应于确定所述层次分布距离中最小的层次分布距离小于等于第二阈值,将所述待聚类网页数据加入所述最小的层次分布距离对应的簇中;响应于确定所述层次分布距离中最小的层次分布距离大于第二阈值,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于确定进行所述聚类操作的待聚类网页数据的数量达到第三阈值,选取与簇心层次分布距离最小的预设数量的待聚类网页数据,将所述簇心和选取的所述待聚类网页数据的集合作为新的簇,分别计算包括所述簇心在内的所述待聚类网页数据两两之间的层次分布距离,将与其他选取的所述待聚类网页数据和所述簇心的层次分布距离最小的待聚类网页数据作为该新的簇的簇心。3.根据权利要求1所述的方法,其特征在于,所述分别计算所述待聚类网页数据与每一个所述预选簇心的层次分布距离,包括:对所述待聚类网页数据与每一个所述预选簇心分别进行以下操作:遍历所述待聚类网页数据的DOM树,根据所述待聚类网页数据的DOM树的节点分布信息得到第一层次分布数组和第一统计分布向量;遍历所述预选簇心的DOM树,根据所述预选簇心的DOM树的节点分布信息得到第二层次分布数组和第二统计分布向量;其中,层次分布数组由该数组中每一层的分布向量组成,表示所述DOM树中每一层的每一种节点数目在该层总节点数目的占比;统计分布向量表示所述DOM树中每一层的节点数目在总节点数目的占比;将所述第一层次分布数组和所述第二层次分布数组中维度较小的数组的维度补齐至与维度较大的数组相同,得到新的第一层次分布数组和新的第二层次分布数组;根据所述新的第一层次分布数组和所述新的第二层次分布数组的分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的层次相似度;根据所述第一统计分布向量和所述第二统计分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的统计相似度;将所述层次相似度与所述统计相似度的比值作为所述待聚类网页数据与所述预选簇心的层次分布距离。4.根据权利要求3所述的方法,其特征在于,所述根据所述新的第一层次分布数组和所
述新的第二层次分布数组的分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的层次相似度,包括:其中,C
level
为层次相似度,i∈[1,m]表示在层次分布数组中当前的行数,vec1
level
[i],vec2
level
[i]表示所述待聚类网页数据与所述预选簇心...
【专利技术属性】
技术研发人员:张树壮,黄小红,林峤,李杰,张晓冬,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。