网页聚类方法及相关装置制造方法及图纸

技术编号:33769495 阅读:31 留言:0更新日期:2022-06-12 14:21
本申请提供一种网页聚类方法及相关装置,其中,所述方法包括:将同类的待聚类网页数据归类为一簇,并设置相应的簇心,通过待聚类网页和各个已有簇的簇心间进行比较,对待聚类网页进行聚类。其中:通过DOM树尺寸的预比较,减少了距离计算的次数;通过提出层次分布距离的定义并以此作为DOM树相似程度的衡量方法,使得所提出方法在具有较高执行效率的同时,能够保证更优的聚类效果。保证更优的聚类效果。保证更优的聚类效果。

【技术实现步骤摘要】
网页聚类方法及相关装置


[0001]本申请涉及网页聚类
,尤其涉及一种网页聚类方法及相关设备。

技术介绍

[0002]网页聚类问题的核心是网页间的相似程度的计算。根据计算方法的不同,有基于文本的聚类方法和基于网页结构的聚类方法。网页包含的文本内容是网页信息的直观载体,基于网页内容的聚类方法主要通过比较网页间的内容相似程度,作为判断网页相似的依据。现今的网页往往更多地使用图像元素,从而减少了文本的比重,导致网页的文本特征信息不够稳定。与文本内容相比,网页的结构信息更新周期较长,稳定性更高。基于结构的网页聚类,相关的方法是树编辑距离方法以及标签频率统计方法。
[0003]在相关的方法下,树编辑距离方法会存在由于求解过程复杂导致求解效率较低的问题;标签频率统计方法由于对节点层次和分布特征的考虑不足会导致聚类效果不够理想。

技术实现思路

[0004]有鉴于此,本申请的目的在于提出一种网页聚类方法及相关设备。
[0005]基于上述目的,本申请提供了一种网页聚类方法,包括:
[0006]获取待聚类网页数据集,对所述待聚类网页数据集中的每一个待聚类网页数据,按顺序执行以下聚类操作,以完成所述待聚类网页数据集中的全部待聚类网页数据的聚类:
[0007]响应于确定所述待聚类网页数据为第一个进行聚类的网页,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中;
[0008]响应于确定所述待聚类网页数据为非第一个进行聚类的网页,将所述簇列表中所述簇心的文档对象模型DOM树尺寸中与所述待聚类网页数据的DOM树尺寸的差值小于第一阈值的所述簇心作为预选簇心;
[0009]分别计算所述待聚类网页数据与每一个所述预选簇心的层次分布距离,所述层次分布距离用于表示所述网页的文档对象模型DOM树的相似程度,响应于确定所述层次分布距离中最小的层次分布距离小于等于第二阈值,将所述待聚类网页数据加入所述最小的层次分布距离对应的簇中;响应于确定所述层次分布距离中最小的层次分布距离大于第二阈值,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中。
[0010]进一步的,所述方法还包括:
[0011]响应于确定进行所述聚类操作的待聚类网页数据的数量达到第三阈值,选取与簇心层次分布距离最小的预设数量的待聚类网页数据,将所述簇心和选取的所述待聚类网页数据的集合作为新的簇,分别计算包括所述簇心在内的所述待聚类网页数据两两之间的层
次分布距离,将与其他选取的所述待聚类网页数据和所述簇心的层次分布距离最小的待聚类网页数据作为该新的簇的簇心。
[0012]进一步的,所述分别计算所述待聚类网页数据与每一个所述预选簇心的层次分布距离,包括:
[0013]对所述待聚类网页数据与每一个所述预选簇心分别进行以下操作:
[0014]遍历所述待聚类网页数据的DOM树,根据所述待聚类网页数据的DOM树的节点分布信息得到第一层次分布数组和第一统计分布向量;
[0015]遍历所述预选簇心的DOM树,根据所述预选簇心的DOM树的节点分布信息得到第二层次分布数组和第二统计分布向量;其中,层次分布数组由该数组中每一层的分布向量组成,表示所述DOM树中每一层的每一种节点数目在该层总节点数目的占比;统计分布向量表示所述DOM树中每一层的节点数目在总节点数目的占比;
[0016]将所述第一层次分布数组和所述第二层次分布数组中维度较小的数组的维度补齐至与维度较大的数组相同,得到新的第一层次分布数组和新的第二层次分布数组;
[0017]根据所述新的第一层次分布数组和所述新的第二层次分布数组的分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的层次相似度;
[0018]根据所述第一统计分布向量和所述第二统计分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的统计相似度;
[0019]将所述层次相似度与所述统计相似度的比值作为所述待聚类网页数据与所述预选簇心的层次分布距离。
[0020]进一步的,所述根据所述新的第一层次分布数组和所述新的第二层次分布数组的分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的层次相似度,包括:
[0021][0022]其中,C
level
为层次相似度,i∈[1,m]表示在层次分布数组中当前的行数,vec1
level
[i],vec2
level
[i]表示所述待聚类网页数据与所述预选簇心对应的层次分布数组在第i行上的分布向量,c
le
为用于调整分布向量的夹角计算结果的参数;w
sum
为逐层权重的总量,w
level
为逐层权重每一层的递减量;vec1
level
[i],vec2
level
[i]都为维度为k的分布向量,对于DOM树第i层的distance
vec
的计算公式如下:
[0023][0024]其中,W
vertex
[j]为当前的节点的权重系数。
[0025]进一步的,所述根据所述第一统计分布向量和所述第二统计分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的统计相似度,包括:
[0026]sim
distri
=c
distri

distri
+cos(vec1
distri
,vec2
distri
))
[0027]其中,sim
distri
是统计相似度,α
distri
是用于调整结果下限的常数,c
distri
是用于调整分布相似性结算结果变化范围的参数。
[0028]进一步的,所述DOM树通过以下方法提取:
[0029]通过脚本浏览器访问目标网页,响应于确定所述目标网页加载完成,获取所述目标网页的超文本标记语言HTML文档;
[0030]通过正则式匹配获取所述HTML文档中的HTML标签;
[0031]按所述HTML标签的顺序逐个生成每一个所述HTML标签对应的节点,得到所述DOM树。
[0032]进一步的,所述正则式匹配通过re库进行。
[0033]基于同一构思,本申请还提供了一种网页聚类装置,包括:
[0034]获取模块,被配置为获取待聚类网页数据集;
[0035]聚类模块,被配置为对所述待聚类网页数据集中的每一个待聚类网页数据,按顺序执行以下聚类操作,以完成所述待聚类网页数据集中的全部待聚类网页数据的聚类:
[0036]响应于确定所述待聚类网页数据为第一个进行聚类的网页,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页聚类方法,其特征在于,包括:获取待聚类网页数据集,对所述待聚类网页数据集中的每一个待聚类网页数据,按顺序执行以下聚类操作,以完成所述待聚类网页数据集中的全部待聚类网页数据的聚类:响应于确定所述待聚类网页数据为第一个进行聚类的网页,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中;响应于确定所述待聚类网页数据为非第一个进行聚类的网页,将所述簇列表中所述簇心的文档对象模型DOM树尺寸中与所述待聚类网页数据的DOM树尺寸的差值小于第一阈值的所述簇心作为预选簇心;分别计算所述待聚类网页数据与每一个所述预选簇心的层次分布距离,所述层次分布距离用于表示所述网页的文档对象模型DOM树的相似程度,响应于确定所述层次分布距离中最小的层次分布距离小于等于第二阈值,将所述待聚类网页数据加入所述最小的层次分布距离对应的簇中;响应于确定所述层次分布距离中最小的层次分布距离大于第二阈值,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于确定进行所述聚类操作的待聚类网页数据的数量达到第三阈值,选取与簇心层次分布距离最小的预设数量的待聚类网页数据,将所述簇心和选取的所述待聚类网页数据的集合作为新的簇,分别计算包括所述簇心在内的所述待聚类网页数据两两之间的层次分布距离,将与其他选取的所述待聚类网页数据和所述簇心的层次分布距离最小的待聚类网页数据作为该新的簇的簇心。3.根据权利要求1所述的方法,其特征在于,所述分别计算所述待聚类网页数据与每一个所述预选簇心的层次分布距离,包括:对所述待聚类网页数据与每一个所述预选簇心分别进行以下操作:遍历所述待聚类网页数据的DOM树,根据所述待聚类网页数据的DOM树的节点分布信息得到第一层次分布数组和第一统计分布向量;遍历所述预选簇心的DOM树,根据所述预选簇心的DOM树的节点分布信息得到第二层次分布数组和第二统计分布向量;其中,层次分布数组由该数组中每一层的分布向量组成,表示所述DOM树中每一层的每一种节点数目在该层总节点数目的占比;统计分布向量表示所述DOM树中每一层的节点数目在总节点数目的占比;将所述第一层次分布数组和所述第二层次分布数组中维度较小的数组的维度补齐至与维度较大的数组相同,得到新的第一层次分布数组和新的第二层次分布数组;根据所述新的第一层次分布数组和所述新的第二层次分布数组的分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的层次相似度;根据所述第一统计分布向量和所述第二统计分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的统计相似度;将所述层次相似度与所述统计相似度的比值作为所述待聚类网页数据与所述预选簇心的层次分布距离。4.根据权利要求3所述的方法,其特征在于,所述根据所述新的第一层次分布数组和所
述新的第二层次分布数组的分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的层次相似度,包括:其中,C
level
为层次相似度,i∈[1,m]表示在层次分布数组中当前的行数,vec1
level
[i],vec2
level
[i]表示所述待聚类网页数据与所述预选簇心...

【专利技术属性】
技术研发人员:张树壮黄小红林峤李杰张晓冬
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1