代理服务器及互联网数据的采集方法技术

技术编号:18115168 阅读:38 留言:0更新日期:2018-06-03 08:19
本发明专利技术公开了一种代理服务器及互联网数据的采集方法,包括一种互联网数据的采集方法,包括接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析所述采集请求并得到待采集站点的URL地址;模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;将所述数据流作为回复数据包发送给所述客户端。本发明专利技术能够模拟浏览器登录采用Javascript脚本渲染的网站并进行数据采集,然后由代理服务器将采集到的数据发送给采集软件,无需改变传统采集软件的源程序,即可对传统采集软件无法采集的网站内容进行采集,提高了数据采集效率,降低了人力物力。

【技术实现步骤摘要】
代理服务器及互联网数据的采集方法
本专利技术涉及互联网数据采集
,尤其涉及一种代理服务器及互联网数据的采集方法。
技术介绍
已知,目前互联网已经十分普及,互联网时代也是大数据的时代,在互联网中每时每刻都在产生着海量的数据,而掌握了越多的大数据,凭借对海量数据的处理分析,能够使得更高层面的决策、判断更加有理有据,为不同的行业提供数据支持,为企业高管、政府人员等提供数据参考,因此,采集互联网数据成为了目前大数据公司必备的能力,然而,目前的互联网数据采集软件通常采用htp交互进行数据采集,这种采集方式对于采用Javascript解密渲染的网站或页面数据无法采集,而在采集软件层面进行改进会导致整个软件程序结构的改动,研发成本很大,因此,上述问题均亟待解决。
技术实现思路
针对现有技术中存在的缺陷,本专利技术实施例提供一种代理服务器及互联网数据的采集方法。为解决上述技术问题,本专利技术的实施例采用的技术方案是:一种互联网数据的采集方法,包括:接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析所述采集请求并得到待采集站点的URL地址;模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;将所述数据流作为回复数据包发送给所述客户端。作为优选,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器。本专利技术实施例进一步提供一种代理服务器,包括:数据接收模块,其用于接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析模块,其用于解析所述采集请求并得到待采集站点的URL地址;模拟模块,其用于模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;数据发送模块,其用于将所述数据流作为回复数据包发送给所述客户端。作为优选,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器。与现有技术相比,本专利技术的实施例提供的代理服务器及互联网数据的采集方法,能够通过代理服务器模拟浏览器登录采用Javascript脚本渲染的站点网站并对该站点的网页内容数据进行采集,然后由代理服务器将采集得到的数据发送给采集软件,无需改变传统采集软件的源程序,即可对传统采集软件无法采集的网站内容进行采集,提高了数据采集效率,降低了人力物力。附图说明图1为本专利技术的实施例的方法步骤示意图;图2为本专利技术的实施例的结构框图。图中标号:1-数据接收模块2-解析模块3-模拟模块4-数据发送模块具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。根据图1至图2,本专利技术实施例提供一种互联网数据的采集方法,包括以下步骤:步骤1:接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;在该步骤1中,所述采集请求是包括待采集站点URL地址及相关请求参数的数据包。步骤2:解析所述采集请求并得到待采集站点的URL地址;在该步骤中,具体的,本实施例根据URL(Uniform/UniversalResourceLocator,统一资源定位符)对待采集站点的数据进行采集,所谓URL也称网页地址,是因特网(Internet)上标准的资源地址(Address),本实施例中,所述客户端为数据采集软件,用于在互联网上采集待采集站点的页面数据。步骤3:模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;具体的,在该步骤3中,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器,从而能够模拟登录待采集站点页面,例如,可以模拟火狐浏览器、谷歌浏览器。进一步的,参照图2,本专利技术实施例还提供一种代理服务器,其包括:数据接收模块1,其用于接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析模块2,其用于解析所述采集请求并得到待采集站点的URL地址;模拟模块3,其用于模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;数据发送模块4,其用于将所述数据流作为回复数据包发送给所述客户端。具体的,例如,某URL地址下的页面内容只有通过Javascript解密渲染才能够显示正常的文字内容,而通过采集软件无法自动执行javascript脚本并进行数据采集,而通过本专利技术实施例的方法,则可以通过代理服务器模拟浏览器登录该URL地址进行数据采集,并将得到的数据返回采集软件,从而完成数据采集,而又无需对采集软件的源程序进行改动。另一种情况下,某网站首次访问时会输出一段加密的代码,通过分析,加密Javascript的是向cookie里面写入了一个服务端的随机标记,再执行跳转显示详细内容,当采集软件详情请求在服务器端检测不到cookie内容时则不会输出详细内容,这种情况下可以通过此方法来获取渲染后的代码,因为是真实模拟浏览器行为,浏览器已经执行了javascript的所有动作。以上实施例仅为本专利技术的示例性实施例,不用于限制本专利技术,本专利技术的保护范围由权利要求书限定。本领域技术人员可以在本专利技术的实质和保护范围内,对本专利技术做出各种修改或等同替换,这种修改或等同替换也应视为落在本专利技术的保护范围内。本文档来自技高网...
代理服务器及互联网数据的采集方法

【技术保护点】
一种互联网数据的采集方法,其特征在于,包括:接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析所述采集请求并得到待采集站点的URL地址;模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;将所述数据流作为回复数据包发送给所述客户端。

【技术特征摘要】
1.一种互联网数据的采集方法,其特征在于,包括:接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析所述采集请求并得到待采集站点的URL地址;模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;将所述数据流作为回复数据包发送给所述客户端。2.根据权利要求1所述的方法,其特征在于,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器。3.一种代理服务器,其特征在于,包...

【专利技术属性】
技术研发人员:龚权
申请(专利权)人:北京慧数科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1