一种网页的排重方法及排重系统技术方案

技术编号：2827365 阅读：370 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种网页的排重方法，包括：获取互联网上各网页的正向链接信息，去除各网页正向链接信息中的导航链接和回引链接，比较各网页的正向链接信息，提取相同正向链接的数量超过阈值的网页，将提取的网页组成排重集合，基于所述排重集合排除重复网页。本发明专利技术可根据相同正向链接的特性，计算包含上述相同正向链接的网页的分值，排除分值差在预定数值之内的网页。本发明专利技术还计算网页质量值，保留网页质量值超过设置阈值的网页，再计算网页签名，排除签名相似度超过设定阈值的网页。同时，本发明专利技术还公开一种网页的排重系统。本发明专利技术解决现有技术中网页排重效率低下的不足，网页排重效率较高，并且能够具有较高的精度和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页的排重方法及排重系统
_本专利技术涉及网页排重领域，特别是涉及一种网页的排重方法及排重系统。技术背景随着互联网技术的迅猛发展，互联网上的网页越来越多，据统计，中文网页已逾百亿，其中大约有70%属于重复网页。重复网页是指实质内容相同的网页，例如，显示内容完全相同的网页；正文内容相同，^f旦标题不同的网页；正文内容相同，但辅助内容不同的网页等。重复网页在互联网网页中所占的比重非常大，如何在数量巨大的网页中有效去掉重复网页，是搜索引擎所面临的一个难题。目前，现有技术是通过在网页中选取特征码，对比特征码的方式排除重复网页。参阅图l,示出现有网页的排重方法，具体步骤如下所述。步骤SlOl、在网页中选取特定符号作为定位点。特定符号可为句号、逗号、分号、感叹号等。将网页正文中出现的特定符号作为定位点。步骤S102、在定位点两边选取一定数量的词语作为特征码。一定数量可为根据网页正文内容的多少确定。例如，在定位点两边各选取5个词语组成特征码。步骤S103、比较选取的特征码，如相同或相近似的特征码超过阈值，判定网页为重复网页；如低于阔值，判定网页不是重复网页。特征码相同是指特征码所包含的词语完全相同，特征码相近似是指特征码中所包含的具有实质意义的词语相同，例如，特征码为天气真好啊，，与特征码天气真好相近似。步骤S104、去除重复的网页。上述方法虽然在一定程度上可有效地去除重复网页，但针对互联网上数以百亿的网页，——对比分析网页正文，通常网页正文数据量较大，使分析对比的效率低下。并且各网页正文内容的长短相差较大，特定符号的设置和阈值的大小难...

【技术保护点】
一种网页的排重方法，其特征在于，包括：获取互联网上各网页的正向链接信息；比较各网页的正向链接信息，提取相同正向链接的数量超过阈值的网页；将提取的网页组成排重集合，基于所述排重集合排除重复网页。

【技术特征摘要】
1、一种网页的排重方法，其特征在于，包括获取互联网上各网页的正向链接信息；比较各网页的正向链接信息，提取相同正向链接的数量超过阈值的网页；将提取的网页组成排重集合，基于所述排重集合排除重复网页。2、如权利要求1所述的方法，其特征在于，比较各网页的正向链接信息之前，还包括去除各网页正向链接信息中的导航链接和回引链接。3、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为在相同正向链接中查找广告链接，如广告链接数量大于预设数值，排除包含上述相同正向链接的网页。4、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为在相同正向链接中查找网页正文链接，如网页正文链接数量大于预置数值，排除包含上述相同正向链接的网页。5、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为在相同正向链接中查找相同的链接类型，如相同的链接类型数量超于设置数值，排除包含上述相同正向链接的网页。6、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为获取相同正向链接指向的网页，如上述网页所属主域的个数小于设定数值，排除包含上述相同正向链接的网页。7、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为获取相同正向链接的锚文本，如锚文本相同或相近似，排除包含上述相同正向链接的网页。8、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为根据相同正向链接的特性，计算包含上述相同正向链接的网页的分值，排除分值差在预定数值之内的网页。9、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为在相同正向链接中查找广告链接获取广告链接所占比例数，网页正文链接所占比例数，相同链接类型所占比例数，网页所属的主域所占比例数，相同及相近似的锚文本所占比例数；将上述比例数乘以相应的系数后相加，如得到的数值大于设定阈值，排除包含上述相同正向链接的网页。10、如权利要求1或2所述的方法，其特征在于，基于所述排重集合排除重复网页具体为获取正向链接指向网页的系数和各网页的Rank值，上述...

【专利技术属性】
技术研发人员：禹荣凌，刘云峰，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人