数据采集方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24863118 阅读:44 留言:0更新日期:2020-07-10 19:13
本发明专利技术涉及数据采集方法、装置、计算机设备及存储介质,该方法包括设置过滤规则并设置代理应用程序的IP和端口,以得到中间代理应用程序;获取业务请求;判断过滤规则是否是过滤代理请求的请求头信息;若是,则根据业务请求通过中间代理应用程序请求对应的目标网站,以得到指定链接的数据包;通过指定链接的数据包过滤请求头信息并进行数据采集,以得到目标数据;将目标数据反馈至终端;若不是,则根据业务需求通过中间代理应用程序采集对应的目标网站的相关数据,以得到响应数据;根据过滤规则进行响应数据的过滤,以得到目标数据,并执行将目标数据反馈至终端。本发明专利技术实现高效采集数据,节省分析网站的时间成本,也可以节省设备资源。

【技术实现步骤摘要】
数据采集方法、装置、计算机设备及存储介质
本专利技术涉及计算机,更具体地说是指数据采集方法、装置、计算机设备及存储介质。
技术介绍
业务系统在采集网页数据的时候采用的是模拟http请求的方法或者直接调用浏览器实例的方法来采集数据,但是模拟http请求在碰上动态(统一资源定位符,UniformResourceLocator)结合cookies验证的问题时,只能花费大量的时间去分析API(应用程序接口,ApplicationProgrammingInterface)参数,其所花费的时间成本太高,直接调用浏览器实例的方法需要大量的设备资源,并且大大的降低了效率。因此,有必要设计一种新的方法,实现高效采集数据,节省分析网站的时间成本,也可以节省设备资源。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提供数据采集方法、装置、计算机设备及存储介质。为实现上述目的,本专利技术采用以下技术方案:数据采集方法,包括:设置过滤规则并设置代理应用程序的IP和端口,以得到中间代理应用程序;>获取业务请求;...

【技术保护点】
1.数据采集方法,其特征在于,包括:/n设置过滤规则并设置代理应用程序的IP和端口,以得到中间代理应用程序;/n获取业务请求;/n判断所述过滤规则是否是过滤代理请求的请求头信息;/n若所述过滤规则是过滤代理请求的请求头信息,则根据所述业务请求通过所述中间代理应用程序请求对应的目标网站,以得到指定链接的数据包;/n通过指定链接的数据包过滤请求头信息,并进行数据采集,以得到目标数据;/n将目标数据反馈至终端,以使得终端显示所述目标数据;/n若所述过滤规则不是过滤代理请求的请求头信息,则根据所述业务需求通过所述中间代理应用程序采集对应的目标网站的相关数据,以得到响应数据;/n根据所述过滤规则进行响应...

【技术特征摘要】
1.数据采集方法,其特征在于,包括:
设置过滤规则并设置代理应用程序的IP和端口,以得到中间代理应用程序;
获取业务请求;
判断所述过滤规则是否是过滤代理请求的请求头信息;
若所述过滤规则是过滤代理请求的请求头信息,则根据所述业务请求通过所述中间代理应用程序请求对应的目标网站,以得到指定链接的数据包;
通过指定链接的数据包过滤请求头信息,并进行数据采集,以得到目标数据;
将目标数据反馈至终端,以使得终端显示所述目标数据;
若所述过滤规则不是过滤代理请求的请求头信息,则根据所述业务需求通过所述中间代理应用程序采集对应的目标网站的相关数据,以得到响应数据;
根据所述过滤规则进行响应数据的过滤,以得到目标数据,并执行所述将目标数据反馈至终端,以使得终端显示所述目标数据。


2.根据权利要求1所述的数据采集方法,其特征在于,所述过滤规则包括过滤代理请求的请求头信息以及过滤页面内容。


3.根据权利要求1所述的数据采集方法,其特征在于,所述代理请求的请求头信息包括URL信息以及cookies信息。


4.根据权利要求3所述的数据采集方法,其特征在于,所述通过指定链接的数据包过滤请求头信息,并进行数据采集,以得到目标数据,包括:
对所述指定链接的数据包进行分析,以得到数据以及代理请求,并获取代理请求的请求头信息;
将所述数据存储至数据库内;
将所述代理请求的请求头信息写至http请求对应的请求头参数中,以进行http请求的数据采集,以得到目标数据。


5.根据权利要求1所述的数据采集方法,其特征在于,所述根据所述过滤规则进行响应数据的过滤,以得到目标数据,包括:
对所述响应数据进行分析,以得到目标URL;
过滤所述目标URL对应的数据包,以得到候选数据包;
根据所述业务请求对候选数据包进行筛选,以得到目标页面内容...

【专利技术属性】
技术研发人员:王金辉冼东亮李柏李如先庄智恒
申请(专利权)人:深圳前海环融联易信息科技服务有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1