一种识别相似网页的方法及装置制造方法及图纸

技术编号：8594066 阅读：188 留言：0更新日期：2013-04-18 07:16

本发明专利技术公开了一种识别相似网页的方法及装置，属于计算机技术领域。所述方法包括：分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息；根据所述第一网页和所述第二网页的HTML元素信息，计算所述第一网页和所述第二网页的相似度；当所述相似度大于预设相似阈值时，确定所述第一网页和所述第二网页为相似网页。本发明专利技术通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息，并根据两个网页对应的HTML元素信息计算相似度，确定两个网页是否相似，弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别涉及一种识别相似网页的方法及装置。
技术介绍
随着互联网的普及和发展，无论是网站数量还是网站下的网页数量，都呈现爆炸式增长。由此产生了许多新兴的互联网服务，如网页聚类，网页分类等服务，这些服务都是根据网页呈现的信息为网页进行分类，由此提供更好的用户体验。在对网页进行分类时，需要对待分类网页进行相似性判断，找到与待分类网页相似的已知类别的网页即可确定待分类网页的类别。网页是由HTML (Hypertext Markup Language,超文本标记语言)元素信息构成，因此某些HTML元素信息的组合对一个网页来说是特有的，这就构成了网页的特征，通过人工整理出网页的特征并建立样本库，识别出含有同样特征的网页即可为待分类网页进行分类。另一种方式是将网页转化为图像，然后对该图像的水平和竖直方向分割成一组小的图像，分别计算每个图像的直方图，每个网页对应一组直方图，通过比较待分类网页与已知分类网页的两组直方图的相似性，为待分类网页进行分类。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题通过人工收集网页的特征...

【技术保护点】
一种识别相似网页的方法，其特征在于，所述方法包括：分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息；根据所述第一网页和所述第二网页的HTML元素信息，计算所述第一网页和所述第二网页的相似度；当所述相似度大于预设相似阈值时，确定所述第一网页和所述第二网页为相似网页。

【技术特征摘要】
1.一种识别相似网页的方法，其特征在于，所述方法包括分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息；根据所述第一网页和所述第二网页的HTML元素信息，计算所述第一网页和所述第二网页的相似度；当所述相似度大于预设相似阈值时，确定所述第一网页和所述第二网页为相似网页。2.根据权利要求1所述的方法，其特征在于，所述分别获取待分类的第一网页和已知类别信息的第二网页的超文本标记语言HTML元素信息，包括根据待分类的第一网页的统一资源定位符URL地址，获取所述第一网页的文档对象模型DOM结构信息；在已知类别网页数据库中获取已知类别信息的第二网页的DOM结构信息；分别对所述第一网页的DOM结构信息和所述第二网页的DOM结构信息进行广度优先遍历，生成所述第一网页的HTML元素信息的第一序列集合和所述第二网页的HTML元素信息的第二序列集合；删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息。3.根据权利要求2所述的方法，其特征在于，所述删除所述第一序列集合中与网页结构无关的HTML元素信息以及所述第二序列集合中与网页结构无关的HTML元素信息，包括将所述第一序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除；将所述第二序列集合中未在预设的与网页结构相关的HTML元素信息列表中存在的HTML元素信息进行删除。4.根据权利要求2所述的方法，其特征在于，所述根据所述第一网页和所述第二网页的HTML元素信息，计算所述第一网页和所述第二网页的相似度，包括获取所述第一序列集合包括的HTML元素信息的第一数量；获取所述第二序列集合包括的HTML元素信息的第二数量；根据所述第一数量和所述第二数量，计算所述第一网页和所述第二网页的相似度。5.根据权利要求4所述的方法，其特征在于，所述根据所述第一数量和所述第二数量，计算所述第一网页和所述第二网页的相似度，包括若所述第一数量等于所述第二数量，则根据序列相似度算法计算所述第一序列集合与所述第二序列集合的相似度，并将所述相似度确定为所述第一网页和所述第二网页的相似度；若所述第一数量大于所述第二数量，则在所述第一序列集合中按顺序选取所述第二数量的HTML元素信息作为新的第一序列集合，并根据序列相似度算法计算所述新的第一序列集合与所述第二序列集合的相似度，并将所述相似度确定为所述第一网页和所述第二网页的相似度；若所述第一数量小于所述第二数量，则在所述第二序列集合中按顺序选取所述第一数量的HTML元素信息作为新的第二序列集合，并根据序列相似度算法计算所述第一序列集合与所述新的第二序列集合的相似度，并将所述相似度确定为所述第一网页和所述第二网页的相似度。6.根据权利要求1所述的方法，其特征在于，所述确定所述第一网页和所述第二网页为相似网页之后，所述方法还包括获取所述第二网页的类别信息；将所述第一网页的类别信息...

【专利技术属性】
技术研发人员：李鹏，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人