The invention provides an anti-crawling system based on server packet mirroring, which is characterized in that the full amount of request packets received by the server are mirrored, the packets are restored to user requests in the bypass, and the crawler characteristics are identified in the anti-crawling analysis center and the policy center separated from the server. The above process will not affect the normal working process of the server, the server makes corresponding processing to the request according to the identification result of the policy center. By using the request replication technology at the network level, it does not affect the operation of the existing system, and the SDK deployment is stable. It does not need to modify and publish the program when the policy changes. At the same time, the anti-crawling strategy can be updated in real time, so that the anti-crawling effect of the server can be upgraded in time.
【技术实现步骤摘要】
一种基于服务器封包镜像的反爬系统
本专利技术涉及一种基于服务器封包镜像的反爬系统。
技术介绍
全球互联网请求中约20%为恶意爬虫所产生,数年来比例高居不下,恶意爬虫以窃取互联网上的权威和核心商业数据为目标,非法盗用他人数据而获取私利,还通过强硬的技术手段对加密数据进行破解,广大数据运营厂商深受其害,因此信息安全领域中对于数据防护技术的诉求日渐强烈。目前业内的反爬技术架构设计通常存在两处不足之处,一是应用程序需要额外增加转发模块,将请求转发至反爬识别系统进行识别,这对于应用程序的负载设计增加了很大难度,同时对于后期应用程序升级、测试和运维将增加很多工作量;二是反爬模块与应用程序存在耦合,反爬模块无法提供独立的分析识别服务,模块可复用性低。
技术实现思路
本专利技术提供了一种基于服务器封包镜像的反爬系统,其特点在于通过对服务器接收到的全量请求封包进行镜像复制,在旁路中将封包还原为用户请求,在与服务器分离的反爬分析中心及策略中心内对用户请求进行爬虫特征识别,以上过程不会对服务器正常工作过程产生影响,服务器根据策略中心的识别结果对请求做出相应的处理。对于
技术介绍
中所陈述的业内反爬技术架构设计中存在的不足,本系统给出了有效的应对实践。本专利技术通过以下技术方案实现上述设计与目标:S1,客户端发送至服务器的封包后发送的流式请求数据传输单元在到达服务器网关时,通过流量复制的方式,将全量封包进行复制,而原始请求正常进入到S2步骤,复制后的封包进入到S3步骤;S2,原始请求封包正常进入到服务器端进行处理,服务器端将针对此请求向反爬策略中心发送分析请求,反爬策略中心给出爬虫识别结 ...
【技术保护点】
1.一种服务器反爬系统,其特征在于,通过对服务器全量请求数据封包进行镜像复制后,在旁路中进行重组还原为原始请求数据,然后针对复制的请求数据进行恶意爬虫的行为特征分析,此分析方式不会对现有应用系统的请求处理过程产生影响。
【技术特征摘要】
1.一种服务器反爬系统,其特征在于,通过对服务器全量请求数据封包进行镜像复制后,在旁路中进行重组还原为原始请求数据,然后针对复制的请求数据进行恶意爬虫的行为特征分析,此分析方式不会对现有应用系统的请求处理过程产生影响。2.如权利要求1所述的系统,其特征在于,该系统包含了镜像模块、重组筛选模块、反爬行为分析中心与策略中心以及用于应用程序与策略中心通讯的SDK:镜像模块用于复制服务器端全量请求封包数据单元;重组筛选模块用于将复制后的请求封包数据单元重新组合还原为原始请求,并筛选其中有必要监控的部分请求;反爬行为中心模块包含恶意爬虫识别算法,对请求特征进行分析产生对应反爬策略;反爬策略中心模块包含的是反爬规则,并向应用程序通过SDK提供通讯接口,辅助应用程序进行恶意爬虫识别;SDK实现应用程序与策略中心对于反爬策略的请求、执行与结果响应。3.如权利要求1所述的系统,其特征在于,利用如权利要求2所述的模块结构进行组...
【专利技术属性】
技术研发人员:郭兴华,刘鑫,郝缙,单学钟,李禹霆,赵利,孙国洋,张继璘,吴晓庆,
申请(专利权)人:博雅创智天津科技有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。