网页的处理方法及装置制造方法及图纸

技术编号:12585486 阅读:75 留言:0更新日期:2015-12-24 02:00
本发明专利技术公开了一种网页的处理方法及装置,在上述方法中,获取第一网页文件和第二网页文件;将第一网页文件转换并编码成第一字符串以及将第二网页文件转换并编码成第二字符串;计算第一字符串与第二字符串的编辑距离,其中,在计算编辑距离的过程中包括:字符交换操作,字符交换操作是在第一字符串中两个相邻字符与第二字符串中两个相邻字符的内容相同但字符的排列顺序相反的情况下,将其中一个字符串的相关两个相邻字符的位置互换,以使第一字符串中相关的两个相邻字符与第二字符串中相关的两个相邻字符完全相同;根据编辑距离获取第一网页文件与第二网页文件的相似度,从而不仅能够提高识别效率,而且还可以识别出结构型相似网页。

【技术实现步骤摘要】

本专利技术涉及互联网领域,具体而言,涉及一种网页的处理方法及装置
技术介绍
相关技术中的中间件定制平台通常需要将个人计算机(PC)页面进行转码,然而 在不同网页之间如果具备较高的相似度的情况下,郝么就可W采用一套编码规则进行转 码,而不需要分别针对每一种网页各定制一套转码规则。但是,如何识别不同网页之间的相 似度是亟待解决的技术问题。如果能够解决上述问题,郝么在转码实现过程中将会有效地 提高覆盖率、工作效率W及有效地降低后期的维护成本。目前,通过采用的解决方案主要分 为W下两种方式: 方式一、需要采用人工查询的方式在不同的页面之间挑选出共有的关键字,然后 再进一步判断页面是否包含对应的关键字从而认定两个页面是否相似,此种方式的缺陷在 于:由于需要依赖人工操作,因此误差较大,准确率较低。 方式二、通过采用分词的方法判断两个页面是否相似,但是,此种方式的缺陷在 于对于"结构型"网页(即包含大量链接的页面)而言,其基本没有正文内容,因此无法通 过采用分词的方法来确定不同页面的相似度。 综上所述,相关技术中缺乏一种辨别不同"结构型"网页之间的相似度的技术方 案。
技术实现思路
本专利技术提供了一种网页的处理方法及装置,W至少解决相关技术中缺乏一种辨别 不同"结构型"网页之间的相似度的技术方案的问题。 根据本专利技术的一个方面,提供了一种网页的处理方法。 根据本专利技术实施例的网页的处理方法包括:获取第一网页文件和第二网页文件; 将第一网页文件转换并编码成第一字符串W及将第二网页文件转换并编码成第二字符串; 计算第一字符串与第二字符串的编辑距离,其中,在计算编辑距离的过程中包括:字符交 换操作,字符交换操作是在第一字符串中两个相邻字符与第二字符串中两个相邻字符的内 容相同但字符的排列顺序相反的情况下,将其中一个字符串的相关两个相邻字符的位置互 换,W使第一字符串中相关的两个相邻字符与第二字符串中相关的两个相邻字符完全相 同;根据编辑距离获取第一网页文件与第二网页文件的相似度。 优选地,计算第一字符串与第二字符串的编辑距离包括:在第一字符串和第二字 符串中选取任意一个字符串作为参考字符串;将未被选作参考字符串的另一个字符串与 参考字符串进行比对,确定将另一个字符串变换成与参考字符串完全一致需要执行N步操 作,其中,N为正整数;计算N步操作中与每步操作对应的编辑距离的总和,得到第一字符串 与第二字符串的编辑距离;其中,第M步操作为字符交换操作且第1至M-1步操作不包括字 符交换操作,与第M步操作对应的编辑距离为前M-1步操作的编辑距离总和加1,M为正整 数且KM《N。 优选地,按照W下公式计算与每步操作对应的编辑距离;dist(i,j) ==min{dis j)+l,dist(i, dist(i-l,j-l)+f(i,j),dist(i-2,j-2)+l};其中,min函数为 求取最小值函数,i为第一字符串的长度,i为正整数且i大于1,j为第二字符串的长度,j为正整数且j大于l,dist(i,j)为长度为i的所述第一字符串与长度为j的所述第一字 符串的编辑距离,dist(0,j) =j,dist(i, 0) =i,dist(0, 0) = 0 ;并且当第一字符串的第 i个字符与第二字符串的第j个字符不同时,f(i,j) = 1,当第一字符串的第i个字符与第 二字符串的第j个字符相同时,f(i,j) = 0。 优选地,根据编辑距离获取相似度包括;计算第一字符串的长度和第二字符串的 长度的平均值;计算平均值与编辑距离的差值;采用差值与平均值相除,求取相似度。 优选地,将第一网页文件转换并编码成第一字符串W及将第二网页文件转换并编 码成第二字符串包括:分别删除第一网页文件和第二网页文件的空白字符,并将第一网页 文件转换为第H字符串W及将第二网页文件转换为第四字符串;按照预设编码格式将第H 字符串编码成第一字符串W及将第四字符串编码成第二字符串。 优选地,在根据编辑距离获取第一网页文件与第二网页文件的相似度之后,还包 括;当相似度大于或者等于预设阔值时,选择相同的转码规则对第一网页文件与第二网页 文件进行页面转码。 根据本专利技术的另一方面,提供了一种网页的处理装置。 根据本专利技术实施例的网页的处理装置包括;第一获取模块,用于获取第一网页文 件和第二网页文件;编码转换模块,用于将第一网页文件转换并编码成第一字符串W及将 第二网页文件转换并编码成第二字符串;计算模块,用于计算第一字符串与第二字符串的 编辑距离,其中,在计算编辑距离的过程中包括;字符交换操作,字符交换操作是在查找到 第一字符串中两个相邻字符与第二字符串中两个相邻字符的内容相同但字符的排列顺序 相反的情况下,将其中一个字符串的相关两个相邻字符的位置互换,W使第一字符串中相 关的两个相邻字符与第二字符串中相关的两个相邻字符完全相同;第二获取模块,用于根 据编辑距离获取第一网页文件与第二网页文件的相似度。 优选地,计算模块包括:选取单元,用于在第一字符串和第二字符串中选取任意一 个字符串作为参考字符串;比对单元,用于将未被选作参考字符串的另一个字符串与参考 字符串进行比对,确定将另一个字符串变换成与参考字符串完全一致需要执行N步操作, 其中,N为正整数;计算单元,用于计算N步操作中分别与每步操作对应的编辑距离的总和, 得到第一字符串与第二字符串的编辑距离,其中,第M步操作为字符交换操作且第1至M-1 步操不包括字符交换操作,与第M步操作对应的编辑距离为前M-1步操作的编辑距离总和 加1,M为正整数且KM《N。 优选地,计算模块,用于按照W下公式计算与每步操作对应的编辑距离: dist(i,j) = =min(dist(i_l,j)+1,dist(i,j_l)+1,dist(i_l,j_l)+f(i,j),dist(i_2, j-2)+l};其中,min函数为求取最小值函数,i为第一字符串的长度,i为正整数且i大于1, j为第二字符串的长度,j为正整数且j大于1,dist(i,j)为长度为i的所述第一字符串与 长度为j的所述第一字符串的编辑距离,dist(0,j) =j,dist(i, 0) =i,dist(0, 0) = 0 ; 并且当第一字符串的第i个字符与第二字符串的第j个字符不同时,f(i,j) = 1,当第一字 符串的第i个字符与第二字符串的第j个字符相同时,f(i,j) = 0。 优选地,第二获取模块包括;第一计算单元,用于计算第一字符串的长度和第二字 符串的长度的平均值;第二计算单元,用于计算平均值与编辑距离的差值;第H计算单元, 用于采用差值与平均值相除,求取相似度。 优选地,编码转换模块包括:转换单元,用于分别删除第一网页文件和第二网页文 件的空白字符,并将第一网页文件转换为第H字符串W及将第二网页文件转换为第四字符 串;编码单元,用于按照预设编码格式将第H字符串编码成第一字符串W及将第四字符串 编码成第二字符串。 通过本专利技术实施例,获取第一网页文件和第二网页文件;将第一网页文件转换并 编码成第一字符串W及将第二网页文件转换并编码成第二字符串;计算第一字符串与第二 字符串的编辑距离,其中,在计算编辑距离的过程中包括:字符交换操作,字符交换操本文档来自技高网...

【技术保护点】
一种网页的处理方法,其特征在于,包括:获取第一网页文件和第二网页文件;将所述第一网页文件转换并编码成第一字符串以及将所述第二网页文件转换并编码成第二字符串;计算所述第一字符串与所述第二字符串的编辑距离,其中,在计算所述编辑距离的过程中包括:字符交换操作,所述字符交换操作是在所述第一字符串中两个相邻字符与所述第二字符串中两个相邻字符的内容相同但字符的排列顺序相反的情况下,将其中一个字符串的相关两个相邻字符的位置互换,以使所述第一字符串中相关的两个相邻字符与所述第二字符串中相关的两个相邻字符完全相同;根据所述编辑距离获取所述第一网页文件与所述第二网页文件的相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:梁捷王磊
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1