The invention discloses a web data acquisition method, device and system, relates to the field of information technology, the main purpose is to solve the current crawling in Web data, the proxy server request at the receiving site data, direct access to site data, the safety problem of low site data. The acquisition includes: request to the proxy server to send data, so that the site data acquisition, the proxy server which the website data acquisition request information and identification information including the authorized website, the authorization information is used for indicating the proxy server to verify the crawler server; when the authorization information through verification, site data and the site identification information corresponding to receive the proxy server sends the. The invention is suitable for obtaining the data of the website.
【技术实现步骤摘要】
本专利技术涉及信息
,尤其是一种网站数据获取方法、装置及系统。
技术介绍
随着信息技术的不断发展,越来越多的网站随之出现。其中,一些企业为了对企业所在内部网站情况进行分析,通常会委托其他企业获取企业内网网站的相关数据。目前,服务企业主要通过部署在被服务企业的爬虫程序,获取被服务企业对应的内网网站数据。然而,由于爬虫的代码量较大,爬虫在爬取被服务企业的内网网站数据时会消耗大量的服务器资源,因此被服务企业的通常会对爬虫进行限制和屏蔽,造成爬虫无法获取内网网站数据。为了解决上述问题,爬虫主要通过代理服务器进行网站数据获取,其中,代理服务器主要用于爬取受限的网站资源,即当爬虫获取到网站数据获取请求后,将网站数据获取请求直接转发给代理服务器,由代理服务器获取被服务器企业的网站数据。目前,在爬取网站数据时,代理服务器通常在接收网站数据获取请求后,直接获取网站数据。然而,由于代理服务器通常会被安装后门、捆绑流氓软件等,代理服务器接收的网站数据获取请求可能是后门、捆绑流氓软件发送的,造成网站数据被后门或者流氓软件窃取,从而导致网站数据的安全性较低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网站数据获取方法、装置及系统。依据本专利技术一方面,本专利技术实施例提供一种网站数据获取方法,包括:向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发 ...
【技术保护点】
一种网站数据获取方法,其特征在于,包括:向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。
【技术特征摘要】
1.一种网站数据获取方法,其特征在于,包括:向代理服务器发送网站数据获取请求,以使得所述代理服务器进行网站数据获取,其中,所述网站数据获取请求包括网站的标识信息和授权信息,所述授权信息用于指示所述代理服务器对爬虫服务器进行验证;当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据。2.根据权利要求1所述的网站数据获取方法,其特征在于,所述向代理服务器发送网站数据获取请求之前,所述方法还包括:判断预置存储位置中是否存在与所述网站的标识信息对应的代理服务器,其中,所述预置存储位置保存有不同网站的标识信息、以及与所述标识信息对应的代理服务器;所述向代理服务器发送网站数据获取请求包括:若存在,则向与所述网站的标识信息对应的代理服务器发送网站数据获取请求。3.根据权利要求1所述的网站数据获取方法,其特征在于,所述当所述授权信息通过验证时,接收所述代理服务器发送的与所述网站的标识信息对应的网站数据之后,所述方法还包括:将所述网站数据进行保存。4.一种网站数据获取方法,其特征在于,包括:接收爬虫服务器发送的网站数据获取请求,其中,所述网站数据获取请求包括网站的标识信息和授权信息;对所述授权信息进行验证;当所述授权信息通过验证时,获取与所述网站的标识信息对应的网站数据;将所述网站数据发送给所述爬虫服务器。5.根据权利要求4所述的网站数据获取方法,其特征在于,所述接收爬虫服务器发送的网站数据获取请求包括:当所述爬虫服务器判断预置存储位置中存在与所述网站的标识信息对
\t应的代理服务器时,接收爬虫服务器发送的网站数据获取请求,其中,所述预置存储位置保存有不同网页的标识信息、以及与所述标识信息对应的代理服务...
【专利技术属性】
技术研发人员:杨杰,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。