一种获取目标网站数据信息的方法及装置制造方法及图纸

技术编号:16236393 阅读:99 留言:0更新日期:2017-09-19 16:20
本发明专利技术实施例提供了一种获取目标网站数据信息的方法及装置,该方法应用于服务器,包括:获取当前时刻访问目标网站的目标IP地址;根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;若否,根据预先保存的时间段、IP地址段及各网站地址的对应关系,获取所述目标网站以及当前时刻所在时间段所对应的目标IP地址段,并在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息。本方案中,可以避免访问目标网站的IP地址被屏蔽。

Method and device for acquiring data information of target website

The embodiment of the invention provides a method and a device for acquiring the target site data, including the method applied to the server, the time access to the target site of the target IP address; according to the corresponding relationship between the IP address and the website address each time, preserved in advance, whether the target IP address is IP whether the address segment corresponding to the current time and the time where the target site address; if not, according to the corresponding relation between IP address and website address each time, pre stored, targets corresponding to obtain the target site and the current local time of the IP address, and select any IP address access the target site in the target IP address, acquiring the target site data. In this scheme, access to the target site can be avoided and the IP address is blocked.

【技术实现步骤摘要】
一种获取目标网站数据信息的方法及装置
本专利技术涉及互联网
,特别是涉及一种获取目标网站数据信息的方法及装置。
技术介绍
随着网络技术的迅速发展,网络运营商可以通过网络爬虫自动的抓取其他网络运营商网站的数据信息,并通过相应的索引技术组织这些数据信息,提供给搜索用户进行查询。其中,网络爬虫是一种批量获取目标网站数据信息的技术。数据信息可以包括:图片、音频、视频等。目标网站可以为网络运营商爬取数据信息的网站。目前,采用网络爬虫方式获取目标网站数据信息的方法,主要为:使用目标IP(InternetProtocol,网际协议)地址来访问目标网站,并获取目标网站的数据信息。当采用上述方法获取目标网站的数据信息时,目标网站服务器可以统计访问该目标网站的目标IP地址,当存在目标IP地址访问目标网站的时间周期大于预设周期时,确定该目标IP地址所对应的用户正在使用网络爬虫获取目标网站数据信息,并对该目标IP地址进行屏蔽。因此,现有获取目标网站数据信息的方法可能导致访问目标网站的目标IP地址被屏蔽。
技术实现思路
本专利技术实施例的目的在于提供一种获取目标网站数据信息的方法及装置,以解决现有技术中目标IP地址被屏蔽的技术问题。具体技术方案如下:一方面,本专利技术实施例公开了一种获取目标网站数据信息的方法,应用于服务器,所述方法包括:获取当前时刻访问目标网站的目标IP地址;根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;若否,根据预先保存的时间段、IP地址段及各网站地址的对应关系,获取所述目标网站以及当前时刻所在时间段所对应的目标IP地址段,并在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息。可选的,所述根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址的步骤包括:在所述对应关系中,查找所述目标IP地址所在IP地址段、所述当前时刻所在时间段;判断所述目标IP地址所在IP地址段、所述当前时刻所在时间段及所述目标网站的地址是否对应。可选的,在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息之后,所述方法还包括:检测是否已触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息;若否,触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息,并记录所述触发操作。可选的,所述方法还包括:存储各时间段、IP地址段及各网站地址的对应关系。可选的,所述存储各时间段、IP地址段及各网站地址的对应关系的步骤包括:获取各时间段所对应的IP地址段及各网站地址;对应存储各时间段所对应的IP地址段及各网站地址。可选的,所述方法还包括:当检测到用户更改所述时间段、IP地址段及各网站地址的对应关系时,存储更改后的时间段、IP地址段及各网站地址的对应关系。另一方面,本专利技术实施例还公开了一种获取目标网站数据信息的装置,应用于服务器,所述装置包括:获取单元,用于获取当前时刻访问目标网站的目标IP地址;判断单元,用于根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;选择单元,用于当所述判断单元判断结果为否时,根据预先保存的各时间段、IP地址段及各网站地址的对应关系,获取所述目标网站以及当前时刻所在时间段所对应的目标IP地址段,并在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息。可选的,所述判断单元包括:查找子单元,用于在所述对应关系中,查找所述目标IP所在IP地址段、所述当前时刻所在时间段;判断子单元,用于判断所述目标IP地址所在IP地址段、所述当前时刻所在时间段及所述目标网站的地址是否对应。可选的,所述装置还包括:检测单元,用于检测是否已触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息;触发单元,用于当所述检测单元检测结果为否时,触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息,并记录所述触发操作。可选的,所述装置还包括:存储单元,用于存储各时间段、IP地址段及各网站地址的对应关系。可选的,所述存储单元包括:获取子单元,用于获取各时间段所对应的IP地址段及各网站地址;存储子单元,用于对应存储各时间段所对应的IP地址段及各网站地址。可选的,所述装置还包括:更新单元,用于当检测到用户更改所述时间段、IP地址段及各网站地址的对应关系时,存储更改后的时间段、IP地址段及各网站地址的对应关系。本专利技术实施例提供的一种获取目标网站数据信息的方法及装置,服务器可以获取当前时刻访问目标网站的目标IP地址,根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断该目标IP地址所在IP地址段是否对应当前时刻所在时间段及目标网站的地址,在判断结果为否时,获取当前时刻所在时间段所对应的目标IP地址段及当前时刻所在时间段所对应的目标网站的地址,并在目标地址段中选择任一IP地址来访问目标网站、获取该目标网站的数据信息。本方案中,服务器可以针对当前时刻所在时间段,使用当前时刻所在时间段所对应的IP地址段中的任一IP地址来获取目标网站的数据信息,针对不同的时间段,选择不同的IP地址来访问目标网站,并且获取目标网站的数据信息。这样,一个IP地址不会较长时间的访问一个目标网站,从而能够避免访问目标网站的IP地址被屏蔽,提高获取目标网站数据信息的效率。当然,实施本专利技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的获取目标网站数据信息的方法的一种流程图;图2为本专利技术实施例提供的获取目标网站数据信息的方法的另一种流程图;图3为本专利技术实施例提供的获取目标网站数据信息的方法的又一种流程图;图4为本专利技术实施例提供的获取目标网站数据信息的装置的一种结构示意图;图5为本专利技术实施例提供的获取目标网站数据信息的装置的另一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。下面首先对本专利技术实施例所提供的一种获取目标网站数据信息的方法进行介绍。需要说明的是,本专利技术实施例中的获取目标网站数据信息的方法的执行主体可以为服务器,或者该服务器中的应用程序,这都是合理的。为了解决现有技术中目标IP地址被屏蔽的技术问题,本专利技术实施例提供了一种获取目标网站本文档来自技高网...
一种获取目标网站数据信息的方法及装置

【技术保护点】
一种获取目标网站数据信息的方法,其特征在于,应用于服务器,所述方法包括:获取当前时刻访问目标网站的目标IP地址;根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;若否,根据预先保存的时间段、IP地址段及各网站地址的对应关系,获取所述目标网站以及当前时刻所在时间段所对应的目标IP地址段,并在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息。

【技术特征摘要】
1.一种获取目标网站数据信息的方法,其特征在于,应用于服务器,所述方法包括:获取当前时刻访问目标网站的目标IP地址;根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;若否,根据预先保存的时间段、IP地址段及各网站地址的对应关系,获取所述目标网站以及当前时刻所在时间段所对应的目标IP地址段,并在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息。2.根据权利要求1所述的方法,其特征在于,所述根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址的步骤包括:在所述对应关系中,查找所述目标IP地址所在IP地址段、所述当前时刻所在时间段;判断所述目标IP地址所在IP地址段、所述当前时刻所在时间段及所述目标网站的地址是否对应。3.根据权利要求1所述的方法,其特征在于,在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息之后,所述方法还包括:检测是否已触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息;若否,触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息,并记录所述触发操作。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:存储各时间段、IP地址段及各网站地址的对应关系。5.根据权利要求4所述的方法,其特征在于,所述存储各时间段、IP地址段及各网站地址的对应关系的步骤包括:获取各时间段所对应的IP地址段及各网站地址;对应存储各时间段所对应的IP地址段及各网站地址。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:当检测到用户更改所述时间段、IP地址段及各网站地址的对应关系时,存储更改后的时间段、IP地...

【专利技术属性】
技术研发人员:帅伟良
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1