一种网络爬虫去重特征值的提取方法和装置制造方法及图纸

技术编号：10320103 阅读：233 留言：0更新日期：2014-08-13 20:19

本发明专利技术公开了一种网络爬虫去重特征值的提取方法，包括：步骤一，根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式；步骤二，从目标网站的URL地址中捕获与所述正则表达式匹配的字符串；步骤三，对所述字符串进行预定的格式转换，得到所述URL地址的去重特征值。本发明专利技术还提供一种网络爬虫去重特征值的提取装置。本发明专利技术适用于对不同URL链接指向相同页面的情况实现去重。

全部详细技术资料下载

【技术实现步骤摘要】
一种网络爬虫去重特征值的提取方法和装置
本专利技术涉及互联网
，具体涉及一种网络爬虫去重特征值的提取方法和装置。
技术介绍
互联网中链接数量庞大,URL(Uniform Resource Locator,统一资源定位符)链接数有上百亿个，网络爬虫(Web Spider)在抓取网页时对重复URL进行过滤去重，可防止对相同网页重复下载，这不仅避免了网络IO资源的浪费和爬虫抓取速度降低，同时也可避免数据冗余和重复处理导致的资源浪费。在爬虫去重过程中，URL去重特征值(唯一标识网页的字符串)的提取是过滤去重的重要环节，去重特征值的正确与否，直接影响爬虫的抓取速度。对于去重特征值的生成，主要是针对抓取的URL种子做去重算法，获得URL种子的去重特征值，目前较主流的方法有三种:1)MD5去重特征值生成方法:使用网页URL链接做MD5运算，将得到的MD5值作为去重特征值。2) Hash去重特征值生成方法:使用网页URL链接做Hash运算，将得到的hash值作为去重特征值。3)URL字符串特征值生成方法:直接使用网页URL作为去重特征值。经过大量研究分析发现，...
一种网络爬虫去重特征值的提取方法和装置

【技术保护点】
一种网络爬虫去重特征值的提取方法，其特征在于，包括：步骤一，根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式；步骤二，从目标网站的URL地址中捕获与所述正则表达式匹配的字符串；步骤三，对所述字符串进行预定的格式转换，得到所述URL地址的去重特征值。

【技术特征摘要】
1.一种网络爬虫去重特征值的提取方法，其特征在于，包括: 步骤一，根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式；步骤二，从目标网站的URL地址中捕获与所述正则表达式匹配的字符串；步骤三，对所述字符串进行预定的格式转换，得到所述URL地址的去重特征值。2.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤三之前，所述方法还包括: 为步骤二中捕获的字符串添加第一预设编号和第二预设编号；其中第一预设编号与目标网站相对应，第二预设编号与URL种子的类型相对应。3.如权利要求2所述的网络爬虫去重特征值的提取方法，其特征在于，所述URL种子的类型包括指向入口类型、指向列表类型和指向单品类型。4.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤三中，进行所述预定的格式转换时采用MD5第5版信息摘要算法运算。5.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤三之后，所述方法还包括: 查询去重特征值集合，判断所述URL地址的去重特征值是否存在于所述去重特征值集合中，如果存在，放弃所述URL地址的去重特征值；如果不存在，下载所述URL地址的页面，并将所述URL地址的去重特征值添加至所述去重特征值集合中；其中所述去重特征值集合中的元素为已完成页面下载的URL地址的去重特征值。6.如权利要求5所述的网络爬虫去重特征值的提取方法，其特征在于，所述去重特征值集合存储于Redis存储系统中，其中以去重特征值为键，以对应的数据库自增ID为值。7.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤一中，如果目标网站的URL种子特征为该URL种子中含有商品库存量单位SKU信息，则在步骤二中，从所述URL地址中捕获的字符串至少含有所述SKU信息。8.—种网络爬虫去重特征值的提取装置，其特征在于，包括: 正则表达...

【专利技术属性】
技术研发人员：黎小为，周东，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人