【技术实现步骤摘要】
一种网络爬虫去重特征值的提取方法和装置
本专利技术涉及互联网
,具体涉及一种网络爬虫去重特征值的提取方法和装置。
技术介绍
互联网中链接数量庞大,URL(Uniform Resource Locator,统一资源定位符)链接数有上百亿个,网络爬虫(Web Spider)在抓取网页时对重复URL进行过滤去重,可防止对相同网页重复下载,这不仅避免了网络IO资源的浪费和爬虫抓取速度降低,同时也可避免数据冗余和重复处理导致的资源浪费。在爬虫去重过程中,URL去重特征值(唯一标识网页的字符串)的提取是过滤去重的重要环节,去重特征值的正确与否,直接影响爬虫的抓取速度。对于去重特征值的生成,主要是针对抓取的URL种子做去重算法,获得URL种子的去重特征值,目前较主流的方法有三种:1)MD5去重 特征值生成方法:使用网页URL链接做MD5运算,将得到的MD5值作为去重特征值。2) Hash去重特征值生成方法:使用网页URL链接做Hash运算,将得到的hash值作为去重特征值。3)URL字符串特征值生成方法:直接使用网页URL作为去重特征值。经过大量研究分析发现, ...
【技术保护点】
一种网络爬虫去重特征值的提取方法,其特征在于,包括:步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字符串;步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的去重特征值。
【技术特征摘要】
1.一种网络爬虫去重特征值的提取方法,其特征在于,包括: 步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式; 步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字符串; 步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的去重特征值。2.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,在步骤三之前,所述方法还包括: 为步骤二中捕获的字符串添加第一预设编号和第二预设编号;其中第一预设编号与目标网站相对应,第二预设编号与URL种子的类型相对应。3.如权利要求2所述的网络爬虫去重特征值的提取方法,其特征在于,所述URL种子的类型包括指向入口类型、指向列表类型和指向单品类型。4.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,在步骤三中,进行所述预定的格式转换时采用MD5第5版信息摘要算法运算。5.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,在步骤三之后,所述方法还包括: 查询去重特征值集合,判断所述URL地址的去重特征值是否存在于所述去重特征值集合中,如果存在,放弃所述URL地址的去重特征值;如果不存在,下载所述URL地址的页面,并将所述URL地址的 去重特征值添加至所述去重特征值集合中;其中所述去重特征值集合中的元素为已完成页面下载的URL地址的去重特征值。6.如权利要求5所述的网络爬虫去重特征值的提取方法,其特征在于,所述去重特征值集合存储于Redis存储系统中,其中以去重特征值为键,以对应的数据库自增ID为值。7.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,在步骤一中,如果目标网站的URL种子特征为该URL种子中含有商品库存量单位SKU信息,则在步骤二中,从所述URL地址中捕获的字符串至少含有所述SKU信息。8.—种网络爬虫去重特征值的提取装置,其特征在于,包括: 正则表达...
【专利技术属性】
技术研发人员:黎小为,周东,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。