一种基于分析Http请求的网络爬虫快速识别装置制造方法及图纸

技术编号:31496774 阅读:32 留言:0更新日期:2021-12-18 12:39
一种基于分析Http请求的网络爬虫快速识别装置涉及信息技术领域,本发明专利技术由关键页面设定器、访问请求捕捉器、流计算引擎模块和爬虫判定器组成;流计算引擎模块由单位时间设定器、每IP权重访问量统计器、每IP总访问量统计器、每IP关键页面总访问量统计器、每IP使用浏览器种类总量统计器、每IP低于最小时间间隔访问次数统计器和每IP查询不同行程的次数统计器组成;本发明专利技术可以实时判断网络爬虫,有助于实时采取阻断措施。实时采取阻断措施。实时采取阻断措施。

【技术实现步骤摘要】
一种基于分析Http请求的网络爬虫快速识别装置


[0001]本专利技术涉及信息


技术介绍

[0002]很多在线交易网站在互联网提供查询、预订、下单等服务,例如:携程、12306、淘宝、京东等官网有大量正常用户访问的同时,也存在大量爬虫。爬虫消耗了系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问。通过系统日志分析等,发现官网访问中存在大量爬虫,且通过大量的 IP 进行伪装。
[0003]大量热门、特价商品吸引正常用户访问官网的同时,也存在大量恶意占座的非法代理。通过不断的下单但不支付,利用这些虚占的进行非法盈利,通过系统日志分析等,发现官网存在大量的非法占座会员及非会员手机号用户。
[0004]为了限制伪装技术越来越强的爬虫访问和恶意占座行为,需要开发大数据防爬工具,反爬虫的工具必须具有时效性,所以选择的开发底层框架必须要支持流式计算。
[0005]传统的网络爬虫识别技术是通过对系统日志的分析达成,属于事后发现,本专利技术的优势是利用流计算技术实时发现网络爬虫进行封堵。...

【技术保护点】

【技术特征摘要】
1.一种基于分析Http请求的网络爬虫快速识别装置,其特征在于由关键页面设定器、访问请求捕捉器、流计算引擎模块和爬虫判定器组成;流计算引擎模块由单位时间设定器、每IP权重访问量统计器、每IP总访问量统计器、每IP关键页面总访问量统计器、每IP使用浏览器种类总量统计器、每IP低于最小时间间隔访问次数统计器和每IP查询不同行程的次数统计器组成;关键页面设定器负责标记网站的关键页面,并在关键页面根据活动控件元素带有唯一标识的特点进行自动埋点,埋点的过程是在关键页面的活动控件元素处添加引用采集脚本的script 脚本来实现;访问请求捕捉器用来生成采集脚本,采集脚本用来采集http请求,并且将http请求数据传送目标设定为访问请求捕捉器;访问请求捕捉器解析http请求,得到该http请求的请求时间,URL地址,请求参数,源IP,访问用的浏览器种类;访问请求捕捉器把解析http请求得到的数据封装成一个字符串,通过Kafka发送给流计算引擎模块;流计算引擎模块由Spark对数据进行流式处理;由流式处理API编辑构成单位时间设定器、每IP权重访问量统计器、每IP总访问量统计器、每IP关键页面总访问量统计器、每IP使用浏览器种类总量统计器、每IP低于最小时间间隔访问次数统计器和每IP查询不同行程的次数统计器;单位时间设定器设定进行网络爬虫快速识别时所采用的时间段的长度,命名为单位时间,默认的单位时间为1分钟;每IP权重访问量统计器用来列举单位时间一个源IP访问不同目的的访问量,并将一个源IP访问不同目的的访问量中的前两位访问量相加,得到每IP权重访问量;每IP权重访问量统计器设定每IP权重访问量的阈值为100,权重为0.2;当每IP权重访问量大于阈值时,每IP权重访问量统计器将每IP权重访问量乘以0.2发送给爬虫判定器;每IP总访问量统计器用来统计单位时间一个源IP所有的访问量之和,得到每IP总访问量;每IP总访问量统计器设定每IP总访问量的阈值为80,权重为0.2;当每IP总访问量大于阈值时,每IP总访问量统计器将每IP总访问量乘以0.2发送给爬虫判定器;每IP关键页面总...

【专利技术属性】
技术研发人员:林飞胡凤娇郭祥云易永波古元毛华阳
申请(专利权)人:北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1