一种爬虫模拟登陆采集的方法技术

技术编号:10314313 阅读:204 留言:0更新日期:2014-08-13 16:26
本发明专利技术提供一种爬虫模拟登陆采集的方法,其具体实现过程为:设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集。该一种爬虫模拟登陆采集的方法和现有技术相比,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。

【技术实现步骤摘要】

【技术保护点】
一种爬虫模拟登陆采集的方法,其特征在于其具体实现过程为:一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;四、身份认证模块实现对待采集网站服务器返回值的记录;五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;六、采集请求模块发送对待采集页面的采集请求;七、采集下载模块实现对待采集页面的采集;八、如果不需要模拟登录采集,只需要进行步骤五和六。

【技术特征摘要】

【专利技术属性】
技术研发人员:程瑶
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1