一种信息处理方法及系统技术方案

技术编号:26178228 阅读:33 留言:0更新日期:2020-10-31 14:27
本发明专利技术公开了一种信息处理方法及系统,基于针对网站的用户请求,在目标信息池中获取目标信息;根据目标信息生成与用户请求相匹配的请求信息,使得基于请求信息对网站进行信息请求,响应于对网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。目标信息池包括目标浏览器的用户代理信息、目标IP代理信息、和目标cookie信息。能够通过目标信息池的目标信息对网站进行请求,由于该目标信息为网站的允许请求信息,避免网站的反爬虫系统对用户阻拦,使得用户能够快速有效获得与之权限对应的信息,提升了信息获取效率。

【技术实现步骤摘要】
一种信息处理方法及系统
本专利技术涉及计算机
,特别是涉及一种信息处理方法及系统。
技术介绍
网页爬虫不仅会盗取网站的核心内容,侵犯用户隐私和知识产权,降低被爬网站的竞争力;同时,它还会产生许多虚假用户,造成的大量IP访问网站侵占带宽资源的现象,增加网站的运营成本。为了减少网站的损失,一些网站便开始采取反爬虫技术。但是网站采用反爬虫技术后,会使得正常用户在某一段时间内若访问较为频繁也会被认定为爬虫现象,使得该用户无法及时获得大量与其权限对应的正常信息。从而使得获取网站信息的效率较低。
技术实现思路
针对于上述问题,本专利技术提供一种信息处理方法及系统,实现了提升网站信息获取效率。为了实现上述目的,本专利技术提供了如下技术方案:一种信息处理方法,所述方法包括:基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,所述方法包括:/n基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;/n根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;/n响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:
基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;
根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;
响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。


2.根据权利要求1所述的方法,其特征在于,所述基于针对网站的用户请求,在目标信息池中获取目标信息,包括:
响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;
若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。


4.根据权利要求1所述的方法,其特征在于,所述方法包括:创建目标信息池,包括:
基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息;
获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
将所述目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息存储至目标信息池。


5.根据权利要求4所述的方法,其特征在于,所述基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息,包括:
对获取到的浏览器的用户代理信息进行去重处理,得到目标浏览器的用户代理信息;
所述获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息,包括:
获取各个网站的IP代理信息;
将所述IP代理信息根据免费公开代理和付费代理分开处理,得到各个公开IP代理网站的IP代理信息;
对所述各个公开IP代理网站的IP代理信息访问目标网站进行检测,得到满足检测条件的目标IP代理信息;
所述获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息,包括:
获取每个账号目标网址的用户名、密码和对应的cookie信息,并根据所...

【专利技术属性】
技术研发人员:王忠儒余伟强周晓雪
申请(专利权)人:北京丁牛科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1