The embodiment of the invention provides a method and a device for acquiring the target site data, including the method applied to the server, the time access to the target site of the target IP address; according to the corresponding relationship between the IP address and the website address each time, preserved in advance, whether the target IP address is IP whether the address segment corresponding to the current time and the time where the target site address; if not, according to the corresponding relation between IP address and website address each time, pre stored, targets corresponding to obtain the target site and the current local time of the IP address, and select any IP address access the target site in the target IP address, acquiring the target site data. In this scheme, access to the target site can be avoided and the IP address is blocked.
【技术实现步骤摘要】
一种获取目标网站数据信息的方法及装置
本专利技术涉及互联网
,特别是涉及一种获取目标网站数据信息的方法及装置。
技术介绍
随着网络技术的迅速发展,网络运营商可以通过网络爬虫自动的抓取其他网络运营商网站的数据信息,并通过相应的索引技术组织这些数据信息,提供给搜索用户进行查询。其中,网络爬虫是一种批量获取目标网站数据信息的技术。数据信息可以包括:图片、音频、视频等。目标网站可以为网络运营商爬取数据信息的网站。目前,采用网络爬虫方式获取目标网站数据信息的方法,主要为:使用目标IP(InternetProtocol,网际协议)地址来访问目标网站,并获取目标网站的数据信息。当采用上述方法获取目标网站的数据信息时,目标网站服务器可以统计访问该目标网站的目标IP地址,当存在目标IP地址访问目标网站的时间周期大于预设周期时,确定该目标IP地址所对应的用户正在使用网络爬虫获取目标网站数据信息,并对该目标IP地址进行屏蔽。因此,现有获取目标网站数据信息的方法可能导致访问目标网站的目标IP地址被屏蔽。
技术实现思路
本专利技术实施例的目的在于提供一种获取目标网站数据信息的方法及装置,以解决现有技术中目标IP地址被屏蔽的技术问题。具体技术方案如下:一方面,本专利技术实施例公开了一种获取目标网站数据信息的方法,应用于服务器,所述方法包括:获取当前时刻访问目标网站的目标IP地址;根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;若否,根据预先保存的时间段、IP地址段及各网站地址的对应关系,获取 ...
【技术保护点】
一种获取目标网站数据信息的方法,其特征在于,应用于服务器,所述方法包括:获取当前时刻访问目标网站的目标IP地址;根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;若否,根据预先保存的时间段、IP地址段及各网站地址的对应关系,获取所述目标网站以及当前时刻所在时间段所对应的目标IP地址段,并在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息。
【技术特征摘要】
1.一种获取目标网站数据信息的方法,其特征在于,应用于服务器,所述方法包括:获取当前时刻访问目标网站的目标IP地址;根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址;若否,根据预先保存的时间段、IP地址段及各网站地址的对应关系,获取所述目标网站以及当前时刻所在时间段所对应的目标IP地址段,并在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息。2.根据权利要求1所述的方法,其特征在于,所述根据预先保存的各时间段、IP地址段及各网站地址的对应关系,判断所述目标IP地址所在IP地址段是否对应当前时刻所在时间段及所述目标网站的地址的步骤包括:在所述对应关系中,查找所述目标IP地址所在IP地址段、所述当前时刻所在时间段;判断所述目标IP地址所在IP地址段、所述当前时刻所在时间段及所述目标网站的地址是否对应。3.根据权利要求1所述的方法,其特征在于,在所述目标IP地址段中选择任一IP地址访问所述目标网站,获取所述目标网站的数据信息之后,所述方法还包括:检测是否已触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息;若否,触发通过所述任一IP地址访问所述目标网站,获取所述目标网站的数据信息,并记录所述触发操作。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:存储各时间段、IP地址段及各网站地址的对应关系。5.根据权利要求4所述的方法,其特征在于,所述存储各时间段、IP地址段及各网站地址的对应关系的步骤包括:获取各时间段所对应的IP地址段及各网站地址;对应存储各时间段所对应的IP地址段及各网站地址。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:当检测到用户更改所述时间段、IP地址段及各网站地址的对应关系时,存储更改后的时间段、IP地...
【专利技术属性】
技术研发人员:帅伟良,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。