一种镜像网页的查找方法及查找系统技术方案

技术编号:2827367 阅读:531 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种镜像网页的查找方法,包括:获取网页反向连接的锚文本,计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,判断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,再将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。同时,本发明专利技术还提供一种镜像网页的查找系统。本发明专利技术解决现有技术中查找方法效率低下的不足,能够简单、快捷地查找镜像网页,具有较高的效率。

【技术实现步骤摘要】

本专利技术涉及镜像网页领域,特别是涉及一种镜像网页的查找方法及查找系统
技术介绍
镜像网页是指实质内容相同的网页,例如,显示内容完全相同的网页;正 文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。 在互联网上查找镜像网页,可以排除重复的网页,便于用户检索下载。目前, 现有技术常通过直接计算网页特征值的方法查找镜像网页,将特征值相同及相 近的网页认定为镜像网页。参阅图l,示出现有镜像网页的查找方法,具体步骤如下。步骤SlOl、在互联网上抽取每个网站的主域首页、子域首页、目录首页 等各个网页,组成镜像网页查找集合。新浪主域首页,如,http: 〃www. sina. com 网页各子域首页,如,http://www.sina.com.cn/ 网页 , http://news, sina. com. cn网页;http://finance, sina. com. cn网页;目录首 页,如,http://finance, sina. com. cn/stock网页。步骤S102、分别提取各个网页的特征词语。特征词语为具有实质意义的 词i吾,i。名词、动词等。步骤SI03、分析各个网页的特征词语,统计各个网页特征词的特征值, 特征值包括词语数量、词频、出现位置等。步骤S104、依据特征值在镜像网页查找集合中查找镜像网页。将各个网 页的各项特征值进行比较,特征值相同及相近的网页确定镜像网页,在镜像网 页查找集合中提取出来,进行相应处理。上述方法虽然可以较全面地查找镜像网页,但互联网中的网站数以万计, 每个网站还包括大量的子域页面、目录页面,由每个网站的主域首页、子域首 页、目录首页等各个网页组成的镜像网页查找集合相当庞大,在如此庞大的集 合中查找镜像网页,需占用大量的网络资源,进行相关运算、分析、统计,耗 时耗力,查找效率低下。
技术实现思路
本专利技术所要解决的技术问题是提供一种镜像网页的查找方法,以解决现有 技术中查找方法效率低下的不足。本专利技术能够简单、快捷地查找镜像网.页,具 有较高的效率。本专利技术的另一个目的是提供一种镜像网页的查找系统,以解决现有技术中 查找方法效率低下的不足。本专利技术能够简单、快捷地查找镜像网页,具有较高 的效率。本专利技术一种镜像网页的查找方法,包括获取网页反向连接的锚文本;判 断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取 该网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合, 基于所述镜像网页查找集合查找镜像网页。优选的,判断上述锚文本相对于所述网页是否合法之前,还包括计算上 述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例 的锚文本。优选的,计算上述锚文本的权重具体为统计与子网页同主域的父网页数 量,乘以同主域权重系数;统计与子网页不同主域的各主域的父网页数量,乘 以不同主域—又重系数;将上述乘积相加的和为上述锚文本权重。优选的,还包括如与子网页同主域的父网页数量大于预置数值,按预置 数值计算。优选的,还包括与子网页不同主域的各主域的父网页数量大于预设数值, 按预设数据计算。优选的,获取网页反向链接的锚文本具体为在互联网的各网页上提取正 向连接的锚文本;反转各正向链接,获取网页反向链接的锚文本。优选的,判断上述锚文本相对于所述网页是否合法具体为判断上述锚文 本内容与所述网页内容是否相关联,如是,确定上述锚文本相对于所述网页合法;如不是,确定上述锚文本相对于所述网页不合法。优选的,判断上述锚文本相对于所述网页是否合法具体为对上述锚文本 分解为各词语,判断各词语与所述网页是否相关联;如相关联词语个数小于绝 对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对 于所述网页合法。优选的,判断上述锚文本相对于所述网页是否合法具体为对上述锚文本 分解为各词语,判断各词语与所述网页是否相关联;如相关联词语在上述各词 语中的比例小于相对阈值,确定上述锚文本相对于所述网页不合法;否则,确 定上述锚文本相对于所述网页合法。本专利技术 一种镜像网页的查找系统,包括锚文本获取4莫块、合法性判断模块、 网页提取模块、集合组成模块、及查找模块;所述锚文本获取模块,用于获取 网页反向连接的锚文本;所述合法性判断模块,用于判断上述锚文本相对于所 述网页是否合法;所述网页提取模块,用于确定不合法锚文本所属的网页,提 取该网页所在主域、子域、及目录的首页;所述集合组成模块,用于将提取的 网页组成镜像网页查找集合;所述查找模块,用于基于所述镜像网页查找集合 查找镜像网页。优选的,还包括权重计算模块,用于计算上述锚文本的权重,按权重大小 顺序,提取设置数量的锚文本,或提取设置比例的锚文本,发送到所述合法性 判断模块。与现有技术相比,本专利技术具有以下优点本专利技术根据锚文本判断选取可能存在镜像的网页,只将可能存在镜像的网 页组成镜像网页查找集合,相对于现有技术中由互联网上全部网页组成镜像网 页查找集合,本专利技术组成的镜像网页查找集合只包含可能存在镜像的网页,服 务器也只针对可能存在镜像的网页进行计算、分析、统计,查找镜像网页,避 免不必要的分析计算,具有较高的查找效率。本专利技术在锚文本数量较多的情况下,只对权重较高的锚文本进行合法性判 断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首 页,组成镜像网页查找集合,进一步缩小镜像网站集合的范围,该集合的网页 存在镜像的可能性较高,使得基于该集合查找镜像网页的效率进一步提高。 附图说明图1为现有镜-像网页的查找方法流程图;图2为本专利技术镜像网页的查找方法第一实施例流程图;图3为本专利技术判断锚文本是否合法的方法第一实施例流程图;图4为本专利技术判断锚文本是否合法的方法第二实施例流程图;图5为本专利技术镜像网页的查找方法第二实施例流程图; . 图6为本专利技术计算锚文本权重方法第一实施例流程图; 图7为本专利技术计算锚文本权重方法第二实施例流程图; 图8为本专利技术镜像网页的查找系统第一实施例示意图; 图9为本专利技术镜像网页的查找系统第二实施例示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。一个网页包含指向另 一个网页的超链接(URL ),认为这两个网页之间存在 链接关系。超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B, 网页A可称为父网页,网页B可称为子网页,该链^妄对于网页A为正向链^f妻, 对于网页B为反向链接。每个网页都可能存在多个正向链接和反向链接。一个网页使用某个锚文本链接另 一个网页,可以看作是现实中 一个人对另 一个人的称谓、评价、总结。例如,网页A使用锚文本北大指向网页B, 可以看作是网页A称呼网页B为北大。但如果北大并不是网页B合法 称呼,那么网页A就可能存在问题。同理,使用锚文本北大指向网页B 的各网页都可能存在同样的问题,因存在同样的问题,上述各网页间存在镜像 网页可能性较大。将存在镜像可能性较大的网页提取出来,组成镜像网页查找 集合,再基于该集合查找镜像网页,缩小查找范围,提高查找效率。参阅图2,示出本专利技术镜像网页的查找方法第一实施例,具体步骤如下。步骤S201、获取网页反向连接的锚文本。网络服务本文档来自技高网
...

【技术保护点】
一种镜像网页的查找方法,其特征在于,包括:获取网页反向连接的锚文本;判断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。

【技术特征摘要】
1、一种镜像网页的查找方法,其特征在于,包括获取网页反向连接的锚文本;判断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。2、 如权利要求1所述的方法,其特征在于,判断上述锚文本相对于所述 网页是否合法之前,还包括计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提 取设置比例的锚文本。3、 如权利要求2所述的方法,其特征在于,计算上述锚文本的权重具体为统计与子网页同主域的父网页数量,乘以同主域权重系数;统计与子网页不同主域的各主域的父网页数量,乘以不同主域权重系数;将上述乘积相加的和为上述锚文本权重。4、 如权利要求3所述的方法,其特征在于,还包括 如与子网页同主域的父网页数量大于预置数值,按预置数值计算。5、 如权利要求3所述的方法,其特征在于,还包括与子网页不同主域的各主域的父网页数量大于预设数值,按预设数据计算。6、 如权利要求1至5任一项所述的方法,其特征在于,获取网页反向链 接的锚文本具体为在互联网的各网页上提取正向连接的锚文本; 反转各正向链接,获取网页反向链接的锚文本。7、 如权利要求1至5任一项所述的方法,其特征在于,判断上述锚文本 相对于所述网页是否合法具体为判断上述锚文本内容与所述网页内容是否相关联,如是,确定上述锚文本 相对于所述网页合法;...

【专利技术属性】
技术研发人员:禹荣凌刘云峰熊展志
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1