网站数据获取方法、装置及系统制造方法及图纸

技术编号:15275866 阅读:50 留言:0更新日期:2017-05-04 19:36
本发明专利技术公开了一种网站数据获取方法、装置及系统,涉及信息技术领域,主要目的在于解决目前在爬取网站数据时,代理服务器在接收网站数据获取请求后,直接获取网站数据,网站数据的安全性较低的问题。所述包括:向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。本发明专利技术适用于网站数据的获取。

Method, device and system for acquiring website data

The invention discloses a web data acquisition method, device and system, relates to the field of information technology, the main purpose is to solve the current crawling in Web data, the proxy server request at the receiving site data, direct access to site data, the safety problem of low site data. The acquisition includes: request to the proxy server to send data, so that the site data acquisition, the proxy server which the website data acquisition request information and identification information including the authorized website, the authorization information is used for indicating the proxy server to verify the crawler server; when the authorization information through verification, site data and the site identification information corresponding to receive the proxy server sends the. The invention is suitable for obtaining the data of the website.

【技术实现步骤摘要】

本专利技术涉及信息
,尤其是一种网站数据获取方法、装置及系统
技术介绍
随着信息技术的不断发展,越来越多的网站随之出现。其中,一些企业为了对企业所在内部网站情况进行分析,通常会委托其他企业获取企业内网网站的相关数据。目前,服务企业主要通过部署在被服务企业的爬虫程序,获取被服务企业对应的内网网站数据。然而,由于爬虫的代码量较大,爬虫在爬取被服务企业的内网网站数据时会消耗大量的服务器资源,因此被服务企业的通常会对爬虫进行限制和屏蔽,造成爬虫无法获取内网网站数据。为了解决上述问题,爬虫主要通过代理服务器进行网站数据获取,其中,代理服务器主要用于爬取受限的网站资源,即当爬虫获取到网站数据获取请求后,将网站数据获取请求直接转发给代理服务器,由代理服务器获取被服务器企业的网站数据。目前,在爬取网站数据时,代理服务器通常在接收网站数据获取请求后,直接获取网站数据。然而,由于代理服务器通常会被安装后门、捆绑流氓软件等,代理服务器接收的网站数据获取请求可能是后门、捆绑流氓软件发送的,造成网站数据被后门或者流氓软件窃取,从而导致网站数据的安全性较低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网站数据获取方法、装置及系统。依据本专利技术一方面,本专利技术实施例提供一种网站数据获取方法,包括:向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。依据本专利技术另一方面,本专利技术实施例提供另一种网站数据获取方法,包括:接收爬虫服务器发送的网站数据获取请求,其中,所述网站数据获取请求包括网站的标识信息和授权信息;对所述授权信息进行验证;当所述授权信息通过验证时,获取与所述网站的标识信息对应的网站数据;将所述网站数据发送给所述爬虫服务器。依据本专利技术又一方面,本专利技术实施例提供一种爬虫服务器,包括:发送单元,用于向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;接收单元,用于当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。依据本专利技术再一方面,本专利技术实施例提供一种代理服务器,包括:接收单元,用于接收爬虫服务器发送的网站数据获取请求,其中,所述网站数据获取请求包括网站的标识信息和授权信息;验证单元,用于对所述授权信息进行验证;获取单元,用于当所述授权信息通过验证时,获取与所述网站的标识信息对应的网站数据;发送单元,用于将所述网站数据发送给所述爬虫服务器。依据本专利技术又再一方面,本专利技术实施例提供一种网站数据获取方法系统,包括:爬虫服务器和代理服务器,所述爬虫服务器,用于向代理服务器发送网站数据获取请求,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;所述代理服务器,用于对所述授权信息进行验证,当所述授权信息通过验证时,获取与所述网站的标识信息对应的网站数据,将所述网站数据发送给所述爬虫服务器。所述爬虫服务器,还用于当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。借由上述技术方案,本专利技术提供的一种网站数据获取方法、装置及系统。首先向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。与目前在爬取网站数据时,代理服务器通常在接收网站数据获取请求后,直接获取网站数据相比,本专利技术实施例爬虫服务器在向代理服务器发送网站数据获取请求时加入授权信息,以指示所述代理服务器对爬虫服务器进行验证,当授权信息通过代理服务器验证时,代理服务器再获取网站数据,能够避免代理服务器被后门或者流氓软件利用,从而能够避免被服务企业的网站数据被窃取,进而能够提高网站数据的安全性。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种网站数据获取方法的流程图;图2示出了本专利技术实施例提供的另一种网站数据获取方法的流程图;图3示出了本专利技术实施例提供的又一种网站数据获取方法的流程图;图4示出了本专利技术实施例提供的再一种网站数据获取方法的流程图;图5示出了本专利技术实施例提供的一种爬虫服务器的结构示意图;图6示出了本专利技术实施例提供的另一种爬虫服务器的结构示意图;图7示出了本专利技术实施例提供的一种代理服务器的结构示意图;图8示出了本专利技术实施例提供的另一种代理服务器的结构示意图;图9示出了本专利技术实施例提供的一种网站数据获取方法系统的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种网站数据获取方法,如图1所示,所述方法包括:101、向代理服务器发送网站数据获取请求。进一步地,以使得所述代理服务器进行网站数据获取。其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证。所述网站数据获取请求可以为当用户点击或者触发爬虫按钮时后,向爬虫服务器发送的网站数据获取请求,也可以为爬虫服务器按照预置时间间隔从数据库中获取的网站数据获取请求。其中,所述网站的标识信息可以为网站的统一资源定位符(UniformResourceLocators,URL)等。授权信息可以为需要爬取的网站对应的登陆用户名和密码,也可以为需要爬取的网站对应的开发公司的名称,或者服务企业与被服务企业之间约定的信息,本专利技术实施例不做限定。对于本专利技术实施例,步骤101具体可以:向代理服务器转发从数据库中获取的网站数据获取请求或者用户发送的网站数据获取请求。102、当授权信息通过验证时,接收代理服务器发送的与网站的标识信息对应的网站数据。对于本专利技术实施例,当代理服务器接收到网站数据获取请求时,会先对网站数据获取请求中的授权信息进行验证,只有授权信息通过验证,才说明代理服务器接收的网站数据获取请求为合法的,则根据该网站数据获取请求中的网站的标识信息进行网站数据的获取。爬虫服务器在向代理服务器发送网站数据获取请求时加入授权信息,使得代理服务器对爬虫服务器进行验证。当授权信息通过验证时,代理服务器再获取网站数据,能够避免代理服务器被后门或者流氓软件利用,从而能够避免被服务企业的网站数据被窃取,本文档来自技高网...
网站数据获取方法、装置及系统

【技术保护点】
一种网站数据获取方法,其特征在于,包括:向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。

【技术特征摘要】
1.一种网站数据获取方法,其特征在于,包括:向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。2.根据权利要求1所述的网站数据获取方法,其特征在于,所述向代理服务器发送网站数据获取请求之前,所述方法还包括:判断预置存储位置中是否存在与所述网站的标识信息对应的代理服务器,其中,所述预置存储位置保存有不同网站的标识信息、以及与所述标识信息对应的代理服务器;所述向代理服务器发送网站数据获取请求包括:若存在,则向与所述网站的标识信息对应的代理服务器发送网站数据获取请求。3.根据权利要求1所述的网站数据获取方法,其特征在于,所述当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据之后,所述方法还包括:将所述网站数据进行保存。4.一种网站数据获取方法,其特征在于,包括:接收爬虫服务器发送的网站数据获取请求,其中,所述网站数据获取请求包括网站的标识信息和授权信息;对所述授权信息进行验证;当所述授权信息通过验证时,获取与所述网站的标识信息对应的网站数据;将所述网站数据发送给所述爬虫服务器。5.根据权利要求4所述的网站数据获取方法,其特征在于,所述接收爬虫服务器发送的网站数据获取请求包括:当所述爬虫服务器判断预置存储位置中存在与所述网站的标识信息对
\t应的代理服务器时,接收爬虫服务器发送的网站数据获取请求,其中,所述预置存储位置保存有不同网页的标识信息、以及与所述标识信息对应的代理服务...

【专利技术属性】
技术研发人员:杨杰
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1