【技术实现步骤摘要】
本专利技术实施例涉及计算机
,尤其涉及一种网页结构相似性确定方法及装置。
技术介绍
在现有技术中,搜索引擎处理的主要的对象是网页。搜索引擎除了对网页的内容 进行分析和处理以外,还需要在两个或多个网页间进行相似度比较,例如,网页内容相似性 和/或网页结构相似性。 其中,网页内容相似性是指在同一篇文章被不同的网站拷贝转载的情况下,虽然 每个网站的版式不同,但文章的内容是一至的。此时,搜索引擎不需要将包含该文章的网页 全部呈现给用户,因为这样会使用户较难找到其他不同的内容,搜索引擎只需要将其中的 一个呈现给用户即可。 目前,计算网页内容相似性的技术已经比较成熟,通常是采用向量空间模型来表 示文本,通过为文本中的每种单元(例如词)赋予一定的权重来将网页表示为空间中的一 个向量,然后用欧氏距离或者余弦相似度来度量它们的相似性。 网页结构相似性也可以成为网页版式相似性,如果在同一网站上具有两个新闻网 页,虽然新闻网页的内容不同,但新闻网页的版式结构是几乎一样的,在上述情况下,则可 以说这两个新闻网页的内容不相似但结构相似。再例如,由同一程序生成的多个作弊网站 的首页, ...
【技术保护点】
一种网页结构相似性确定方法,其特征在于,包括: 根据网页的DOM树确定网页的模板特征向量; 对所述模板特征向量计算网页结构相似性,并进行查找或类聚。
【技术特征摘要】
一种网页结构相似性确定方法,其特征在于,包括根据网页的DOM树确定网页的模板特征向量;对所述模板特征向量计算网页结构相似性,并进行查找或类聚。2. 根据权利要求l所述的方法,其特征在于,所述根据网页的DOM树确定网页的模板特征向量包括将所述DOM树中的节点或节点的组合划分为不同的特征单元; 确定所述特征单元映射到高维特征向量后所在的维数;根据所述特征单元在所述DOM树中的权重值确定所述特征单元在所述维数上的实数 值,得到高维特征向量;将所述高维特征向量进行压縮,得到最终的所述模板特征向量。3. 根据权利要求2所述的方法,其特征在于,所述确定所述特征单元映射到高维特征 向量后所在的维数包括将所述特征单元的信息拼接为字符串,并对所述字符串进行哈希运算,得到哈希运算 结果;将所述哈希运算结果作为所述特征单元映射到高维特征向量后所在的维数。4. 根据权利要求2所述的方法,其特征在于,所述根据所述特征单元在所述DOM树中的 权重值确定所述特征单元在所述维数上的实数值之前,所述方法还包括根据预定规则确定所述特征单元在所述DOM树中的权重值。5. 根据权利要求4所述的方法,其特征在于,所述预定规则包括 所述权重值随所述特征单元在所述DOM树中的深度递减;所述权重值随所述特征单元在兄弟节点中的重复递减,其中,所述权重值的衰减向所 述特征单元的子特征单元传递;所述权重值随所述特征单元无相关属性递减,其中,所述权重值的衰减向所述特征单 元的子特征单元传递。6. 根据权利要求2所述的方法,其特征在于,所述将所述高维特征向量进行压縮,得到最终的所述模板特征向量包括将M维高维特征向量中的各个维数分别除以N,得到相应的余数,其中,N为大于等于1小于M的自然数;将所有余数相同的高维特征向量的维作为N维模板特征向量的一个维; 将所述所有余数相同的高维特征向量的维中的实数值相加,作为所述N维模板特征向 量相应维的实数值。7. 根据权利要求1所述的方法,其特征在于,所述对所述模板特征向量计算网页结构相似性,并进行查找或类聚包括 设置至少一套网格;将所述模板特征向量中每一维上的实数值以预定间隔离散为整数值; 将所述模板特征向量映射到所述至少一套网格中;根据所述整数值将所述模板特征向量在所述至少一套网格中进行排序; 查找所有与给定模板特征向量在同一网格内的同网格模板特征向量; 采用预定算法分别计算所有同网格模板特征向量和所述给定模板特征向量的网页的结构相似度。8. 根据权利要求1所述的方法,其特征在于,所述对所述模板特征向量计算网页结构 相似性,并进行查找或类聚包括设置至少一套网格;将所述模板特征向量中每一维上的实数值以预定间隔离散为整数值; 将所述模板特征向量映射到所述至少一套网格中;根据所述整数值将所述模板特征向量在所述至少一套网格中进行排序; 在每一个网格内部基于预定算法将所述...
【专利技术属性】
技术研发人员:李景阳,张波,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:11[]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。