一种识别相似网页的方法及装置制造方法及图纸

技术编号:8594066 阅读:183 留言:0更新日期:2013-04-18 07:16
本发明专利技术公开了一种识别相似网页的方法及装置,属于计算机技术领域。所述方法包括:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。本发明专利技术通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种识别相似网页的方法及装置
技术介绍
随着互联网的普及和发展,无论是网站数量还是网站下的网页数量,都呈现爆炸 式增长。由此产生了许多新兴的互联网服务,如网页聚类,网页分类等服务,这些服务都是 根据网页呈现的信息为网页进行分类,由此提供更好的用户体验。在对网页进行分类时,需 要对待分类网页进行相似性判断,找到与待分类网页相似的已知类别的网页即可确定待分 类网页的类别。网页是由HTML (Hypertext Markup Language,超文本标记语言)元素信息构成, 因此某些HTML元素信息的组合对一个网页来说是特有的,这就构成了网页的特征,通过人 工整理出网页的特征并建立样本库,识别出含有同样特征的网页即可为待分类网页进行分 类。另一种方式是将网页转化为图像,然后对该图像的水平和竖直方向分割成一组小的图 像,分别计算每个图像的直方图,每个网页对应一组直方图,通过比较待分类网页与已知分 类网页的两组直方图的相似性,为待分类网页进行分类。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题通过人工收集网页的特征,耗费时间过长且效率低下;通过直方图判断网页的相 似性时,由于不记录每个图片中的颜色信息在图片中的位置,因此只要图片中的颜色信息 相似度高则判断为相似,因此对网页的误判率较高,会被确定为错误的类别。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种识别相似网页的方法及装 置。所述技术方案如下第一方面,本专利技术实施例提供的一种识别相似网页的方法包括分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的 第二网页的HTML元素信息;根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述 第二网页的相似度;当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网 页。在第一方面的第一种可能的实现方式中,所述分别获取待分类的第一网页和已知 类别信息的第二网页的超文本标记语言HTML元素信息,包括根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对 象模型DOM结构信息;在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息;分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素 信息的第二序列集合;删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集 合中与网页结构无关的HTML元素信息。结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述删除 所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结 构无关的HTML元素信息,包括将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在 的HTML元素信息进行删除;将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在 的HTML元素信息进行删除。结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述根据 所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相 似度,包括获取所述第一序列集合包括的HTML元素信息的第一数量;获取所述第二序列集合包括的HTML元素信息的第二数量;根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述根据 所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度,包括若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集 合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的 相似度;若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第 二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第 一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第 二网页的相似度;若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第 一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序 列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第 二网页的相似度。在第一方面的第五种可能的实现方式中,所述确定所述第一网页和所述第二网页 为相似网页之后,所述方法还包括获取所述第二网页的类别信息;将所述第一网页的类别信息设置为所述第二网页的类别信息。第二方面,本专利技术实施例提供的一种识别相似网页的装置包括第一获取模块,用于分别获取待分类的第一网页的超文本标记语言HTML元素信 息和已知类别信息的第二网页的HTML元素信息;计算模块,用于根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;确定模块,用于当所述相似度大于预设相似阈值时,确定所述第一网页和所述第 二网页为相似网页。在第二方面的第一种可能的实现方式中,所述第一获取模块,包括第一获取单元,用于根据待分类的第一网页的统一资源定位符URL地址,获取所 述第一网页的文档对象模型DOM结构信息;第二获取单元,用于在已知类别网页数据库中获取已知类别信息的第二网页的 DOM结构信息;生成单元,用于分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构 信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二 网页的HTML元素信息的第二序列集合;删除单元,用于删除所述第一序列集合中与网页结构无关的HTML元素信息以及 所述第二序列集合中与网页结构无关的HTML元素信息。结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述删除 单元,包括第一删除子单元,用于将所述第一序列集合中未在预设的与网页结构相关的HTML 元素信息列表中存在的HTML元素信息进行删除;第二删除子单元,用于将所述第二序列集合中未在预设的与网页结构相关的HTML 元素信息列表中存在的HTML元素信息进行删除。结合第二方面的第一种可能的实现方式,在第三种可能的实现方式中,所述计算 模块,包括第三获取单元,用于获取所述第一序列集合包括的HTML元素信息的第一数量;第四获取单元,用于获取所述第二序列集合包括的HTML元素信息的第二数量;计算单元,用于根据所述第一数量和所述第二数量,计算所述第一网页和所述第 二网页的相似度。结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述计算 单元,包括第一计算子单元,用于若所述第一数量等于所述第二数量,则根据序列相似度算 法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一 网页和所述第二网页的相似度;第二计算子单元,用于若所述第一数量大于所述第二数量,则在所述第一序列集 合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似 度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为 所述第一网页和所述第二网本文档来自技高网...

【技术保护点】
一种识别相似网页的方法,其特征在于,所述方法包括:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。

【技术特征摘要】
1.一种识别相似网页的方法,其特征在于,所述方法包括 分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息; 根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度; 当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。2.根据权利要求1所述的方法,其特征在于,所述分别获取待分类的第一网页和已知类别信息的第二网页的超文本标记语言HTML元素信息,包括 根据待分类的第一网页的统一资源定位符URL地址,获取所述第一网页的文档对象模型DOM结构信息; 在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息; 分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历,生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合; 删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。3.根据权利要求2所述的方法,其特征在于,所述删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息,包括 将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除; 将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度,包括 获取所述第一序列集合包括的HTML元素信息的第一数量; 获取所述第二序列集合包括的HTML元素信息的第二数量; 根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一数量和所述第二数量,计算所述第一网页和所述第二网页的相似度,包括 若所述第一数量等于所述第二数量,则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度; 若所述第一数量大于所述第二数量,则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合,并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度; 若所述第一数量小于所述第二数量,则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合,并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度,并将所述相似度确定为所述第一网页和所述第二网页的相似度。6.根据权利要求1所述的方法,其特征在于,所述确定所述第一网页和所述第二网页为相似网页之后,所述方法还包括 获取所述第二网页的类别信息; 将所述第一网页的类别信息...

【专利技术属性】
技术研发人员:李鹏
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1