一种网页的排重方法及排重系统技术方案

技术编号:2827365 阅读:370 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种网页的排重方法,包括:获取互联网上各网页的正向链接信息,去除各网页正向链接信息中的导航链接和回引链接,比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页,将提取的网页组成排重集合,基于所述排重集合排除重复网页。本发明专利技术可根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。本发明专利技术还计算网页质量值,保留网页质量值超过设置阈值的网页,再计算网页签名,排除签名相似度超过设定阈值的网页。同时,本发明专利技术还公开一种网页的排重系统。本发明专利技术解决现有技术中网页排重效率低下的不足,网页排重效率较高,并且能够具有较高的精度和准确率。

【技术实现步骤摘要】
一种网页的排重方法及排重系统
_本专利技术涉及网页排重领域,特别是涉及一种网页的排重方法及排重系统。技术背景随着互联网技术的迅猛发展,互联网上的网页越来越多,据统计,中文网页已逾百亿,其中大约有70%属于重复网页。重复网页是指实质内容相同的网 页,例如,显示内容完全相同的网页;正文内容相同,^f旦标题不同的网页;正 文内容相同,但辅助内容不同的网页等。重复网页在互联网网页中所占的比重 非常大,如何在数量巨大的网页中有效去掉重复网页,是搜索引擎所面临的一 个难题。目前,现有技术是通过在网页中选取特征码,对比特征码的方式排除 重复网页。参阅图l,示出现有网页的排重方法,具体步骤如下所述。步骤SlOl、在网页中选取特定符号作为定位点。特定符号可为句号、逗号、分号、感叹号等。将网页正文中出现的特定符号作为定位点。步骤S102、在定位点两边选取一定数量的词语作为特征码。 一定数量可为根据网页正文内容的多少确定。例如,在定位点两边各选取5个词语组成特征码。步骤S103、比较选取的特征码,如相同或相近似的特征码超过阈值,判 定网页为重复网页;如低于阔值,判定网页不是重复网页。特征码相同是指特 征码所包含的词语完全相同,特征码相近似是指特征码中所包含的具有实质意 义的词语相同,例如,特征码为天气真好啊,,与特征码天气真好相近似。步骤S104、去除重复的网页。上述方法虽然在一定程度上可有效地去除重复网页,但针对互联网上数以 百亿的网页,——对比分析网页正文,通常网页正文数据量较大,使分析对比 的效率低下。并且各网页正文内容的长短相差较大,特定符号的设置和阈值的 大小难以具体把握,设置不当直接影响网页排重的效果。例如,对于网页正文 内容很短的网页,根据特定符号只提取20到个特征码,但阈值为25,这样,就是造成重复网页的漏选,导致网页排重的精度降低;而对于网页正文内容较长的网页,根据特定符合提取500到个特征码,但阈值为25,两个内容相关 但不重复的网页很可能因相同或相近似的特征码超过阔值,而被误判为重复网 页,导致网页排重的准确率较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种网页的排重方法,以解决现有技术 中网页排重效率低下的不足,该排重方法效率较高,并且能够具有较高的精度 和准确率。本专利技术的另 一个目的是提供一种网页的排重系统,以解决现有技术中网页 排重效率低下的不足,该排重系统效率较高,并且能够具有较高的精度和准确 率。本专利技术一种网页的排重方法,包括获取互联网上各网页的正向链接信息; 比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;将提 取的网页组成排重集合,基于所述排重集合排除重复网页。优选的,比较各网页的正向链接信息之前,还包括去除各网页正向链接 信息中的导航链接和回引链接。优选的,基于所述排重集合排除重复网页具体为在相同正向链接中查找 广告链接,如广告链接数量大于预设数值,排除包含上述相同正向链接的网页。优选的,基于所述排重集合排除重复网页具体为在相同正向链4妄中查找 网页正文链接,如网页正文链接数量大于预置数值,排除包含上述相同正向链 接的网页。优选的,基于所述排重集合排除重复网页具体为在相同正向链4妄中查找 相同的链接类型,如相同的链接类型数量超于设置数值,排除包含上述相同正 向链接的网页。优选的,基于所述排重集合排除重复网页具体为获 目同正向链接指向 的网页,如上述网页所属主域的个数小于设定数值,排除包含上述相同正向链 接的网页。优选的,基于所述排重集合排除重复网页具体为获取相同正向链^妄的锚 文本,如锚文本相同或相近似,排除包含上述相同正向链接的网页。优选的,基于所述排重集合排除重复网页具体为才艮据相同正向链接的特 性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的 网页。优选的,基于所述排重集合排除重复网页具体为在相同正向链接中查找 广告链接获取广告链接所占比例数,网页正文链接所占比例数,相同链接类型 所占比例数,网页所属的主域所占比例数,相同及相近似的锚文本所占比例数; 将上述比例数乘以相应的系数后相加,如得到的数值大于设定阈值,排除包含 上述相同正向链接的网页。优选的,基于所述排重集合排除重复网页具体为获取正向链接指向网页 的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及 正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的 系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的 系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和, 将计算数值相加得到网页签名;排除签名相似度超过设定阈值的网页。优选的,还包括获取正向链接指向网页的系数和各网页的Rank值,上 述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚 文本的权重值,其中,网页的系数小于锚文本的系数和主域的系数;分别计算 网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和, 锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页质量值; 保留网页质量值超过设置阈值的网页。本专利技术还公开一种网页的排重系统,包括获取模块、比较模块、提取模块、 组成模块、及排除模块所述获取模块,用于获取互联网上各网页的正向链接 信息;所述比较模块,用于比较各网页的正向链接信息;所述提取模块,用于 提取相同正向链接的数量超过阈值的网页;所述组成才莫块,用于将提取的网页 组成排重集合;所述排除模块,用于基于所述排重集合排除重复网页。优选的,还包括特性计算模块,用于根据相同正向链接的特性,计算包含 上述相同正向链接的网页的分值,并将分值发送给排除模块;所述排除模块排 除分值差在预定数值之内的网页。优选的,还包括数据获取模块和网页签名计算模块所述数据获取模块,用于获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的 系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其 中,网页的系数大于锚文本的系数和主域的系数;所述网页签名计算^t块,用 于分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的 Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得 到网页签名,将网页签名发送到所述排除模块;所述排除模块排除签名相似度 超过设定阈值的网页。与现有技术相比,本专利技术具有以下优点本专利技术提取具有相同正向链接数量超过阈值的网页作为排重集合,在基于 该排重集合排除重复网页。相对应现有技术中提取特征码,对比特征码,本发 明在互联网各网页上提取正向链接信息,对比正向链接信息。相对于人为规定 的特征码,正向链接信息在网页中更明确,易于识别和提取,并且方便对比。 本专利技术提取可能存在重复的网页作为排重集合,大大缩小的排重计算的范围, 减少计算量,提高排重效率。 附图说明图1为现有网页的排重方法流程图; 图2为本专利技术网页的排重方法第一实施例流程图; 图3为本专利技术网页的排重方法第二实施例流程图; 图4为本专利技术网页的排重方法第三实施例流程图; 图5为本专利技术网页的排重方法第四实施例流程图; 图6为本专利技术网页的排重方法第五实施例流程图; 图7为本专利技术网页的排重方本文档来自技高网
...

【技术保护点】
一种网页的排重方法,其特征在于,包括:获取互联网上各网页的正向链接信息;比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;将提取的网页组成排重集合,基于所述排重集合排除重复网页。

【技术特征摘要】
1、一种网页的排重方法,其特征在于,包括获取互联网上各网页的正向链接信息;比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;将提取的网页组成排重集合,基于所述排重集合排除重复网页。2、 如权利要求1所述的方法,其特征在于,比较各网页的正向链接信息 之前,还包括去除各网页正向链接信息中的导航链接和回引链接。3、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找广告链接,如广告链接数量大于预设数值,排除包 含上述相同正向链接的网页。4、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找网页正文链接,如网页正文链接数量大于预置数 值,排除包含上述相同正向链接的网页。5、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找相同的链接类型,如相同的链接类型数量超于设置 数值,排除包含上述相同正向链接的网页。6、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为获取相同正向链接指向的网页,如上述网页所属主域的个数小于设定数 值,排除包含上述相同正向链接的网页。7、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为获取相同正向链接的锚文本,如锚文本相同或相近似,排除包含上述相同 正向链接的网页。8、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排 除分值差在预定数值之内的网页。9、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找广告链接获取广告链接所占比例数,网页正文链接 所占比例数,相同链接类型所占比例数,网页所属的主域所占比例数,相同及 相近似的锚文本所占比例数;将上述比例数乘以相应的系数后相加,如得到的数值大于设定阈值,排除 包含上述相同正向链接的网页。10、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为获取正向链接指向网页的系数和各网页的Rank值,上述...

【专利技术属性】
技术研发人员:禹荣凌刘云峰
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1