The invention provides a method for generating network crawler camouflage data, the steps of which include: selecting a useragent string from the user agent string Library of the browser, obtaining a proxy IP from the proxy IP resource pool; using the useragent string and the proxy IP to access the target website, acquiring cookie information and storing it in the cookie resource pool according to the cookie acquisition policy; and selecting the cookie from the proxy IP resource pool of the browser The IE information is stored in association with the useragent string, the agent IP, multiple local agent IP, and the referer information, and packaged into camouflage data; the camouflage data is used by external crawlers according to the scheduling policy. The invention also provides a generation system of network crawler camouflage data.
【技术实现步骤摘要】
一种网络爬虫伪装数据的生成方法及系统
本专利技术涉及网络信息抓取领域,尤其涉及一种网络爬虫伪装数据的生成方法及系统。
技术介绍
互联网的高速发展使之汇聚了海量的用户数据。将互联网上的海量数据与自己相关的抓取下来,分析数据,就能产生有价值的数据结果,这是舆情分析的前提和基础。但是,由于各搜索引擎、门户网站从自身企业利益的角度出发,并不欢迎爬虫访问,会开发策略程序在确保不妨碍正常自然人用户访问下对爬虫进行封锁,但这样也导致了舆情分析、公共数据调查等正常的数据研究无法进行。由于互联网企业在封锁网络爬虫程序的时候,普遍采用的原则是“封锁爬虫程序的访问,保证正常自然人用户不受影响,同时要考虑封锁措施的成本在合理的范围之内”。因此,要想实现网络数据抓取,开展舆情分析、公共数据调查等正常的数据研究,方法之一是研究如何让爬虫程序在互联网中的网络行为和网络痕迹像自然人一样,概括地说就是研究让爬虫程序在互联网上以拟人化的方式采集数据。目前,爬虫程序伪装自己主要的方式就是通过切换代理IP,降低每个IP的访问频率;设置访问请求的时间间隔;或者在访问请求中手工添加cookie;这些方式都只是在某一个方面模拟了自然人用户人访问互联网的操作,如果互联网站的封锁策略变化,就需要重新修改爬虫代码,并不具有持久的稳定性。
技术实现思路
鉴于上述不足,本专利技术提出了一种网络爬虫伪装数据的生成方法及系统,自动化批量产生网络爬虫伪装数据,多维度模拟真实自然用户访问互联网,使得网络爬虫在互联网上的访问请求行为不易被目标网站 ...
【技术保护点】
1.一种网络爬虫伪装数据的生成方法,其步骤包括:/n从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;/n利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;/n将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;/n根据调度策略将所述伪装数据供外部爬虫程序使用。/n
【技术特征摘要】
1.一种网络爬虫伪装数据的生成方法,其步骤包括:
从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;
利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;
将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;
根据调度策略将所述伪装数据供外部爬虫程序使用。
2.根据权利要求1所述的方法,其特征在于,根据操作系统类型、渲染引擎标志、版本信息数据为useragent字串分类建立索引。
3.根据权利要求1所述的方法,其特征在于,所述useragent字串填充进访问http请求的header文件头的user-agent字段中。
4.根据权利要求1所述的方法,其特征在于,根据IP的地理位置将所述代理IP和所述同城代理IP按照市县两级地理位置索引存储。
5.根据权利要求1所述的方法,其特征在于,所述cookie获取策略包括:
1)对于登陆才可访问的网站,使用用户身份认证信息包括用户名、密码进行访问;对于无需登陆就可访问的网站,可直接进行访问;
2)cookie获取操作信息,包括获取cookie的选择下拉框、点击按钮、输入文本的操作信息、操作之间的先后顺序信息以及与操作相关的网页元素在html网页上的路径位置,该路径位置可使用xpath、css选...
【专利技术属性】
技术研发人员:余姚霖,齐保元,周美林,王斌,李鹏,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。