一种基于行为特征的半自动反爬系统技术方案

技术编号:26304297 阅读:32 留言:0更新日期:2020-11-10 19:59
本发明专利技术属于网络数据安全领域,涉及一种基于行为特征的半自动反爬系统,包括ETL处理单元、行为分析及管理单元、日志分析引擎和请求防护处理单元;其中,ELT处理单元对用户端发起请求的request信息进行ETL处理,得到的UID和URI数据;行为分析及管理单元以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成行为集合和业务场景相关的统计指标;以行为集合为主键聚合,生成分析视图,以判断行为集合是否威胁;若判断是威胁行为集合,则管理威胁行为集合,记录并跟踪威胁行为集合,依据行为集合访问频率、URI数据种类和URI数据数量自动生成处置策略参数,并推送到数据库中,供爬虫实时监测使用。

【技术实现步骤摘要】
一种基于行为特征的半自动反爬系统
本专利技术属于网络数据安全领域,涉及一种基于用户行为分析的爬虫自动识别和处置系统。
技术介绍
现有基于后端数据的反爬系统总体来说有两个方向:一个是基于人工策略和字符特征匹配的爬虫识别和拦截方法,另一个是结合有监督与无监督机器学习的爬虫识别和拦截方法。前一类方式需要业务专家与策略专家共同协作才能提取并应用爬虫识别特征,其从识别到拦截生效周期长,人工成本高,通用性低。第二类引入机器学习方法来识别爬虫的方式,优点是规则的发现由算法从数据样本中自动学习,缺点是需要大量的数据标注,且泛化、更新成本高。无论是使用有监督的机器学习(例如授权公告号:CN109582855B)还是无监督的机器学习,均严重依赖标注数据,而生产服务系统中,日志数据、业务数据量巨大,人工标注、及时更新是一个不可持续的过程。此外,如果爬虫行为更改,而机器学习预先设计的特征不能刻画它,则难以抓住新的爬虫。除了以上缺点,现有反爬系统普遍存在的问题是泛化能力低。人工的规则、字符特征和机器学习,往往都是在特定业务场景下总结的,面对新场景时难以快速接入、本文档来自技高网...

【技术保护点】
1.一种基于行为特征的半自动反爬系统,其特征在于,包括ETL处理单元、行为分析及管理单元、日志分析引擎和请求防护处理单元;/n所述ELT处理单元用于对用户端发起请求的request信息进行ETL处理,将得到的UID和URI数据传输至所述行为分析及管理单元、所述日志分析引擎和所述请求防护处理单元;/n所述行为分析及管理单元用于:以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成UID的行为集合、行为集合统计指标和与业务场景相关的统计指标;以所述行为集合为主键聚合,生成分析视图,以判断所述行为集合是否为威胁行为集合;若判断所述行为集合为威胁行为集合,则将威胁行为集合记录到威胁行为数...

【技术特征摘要】
1.一种基于行为特征的半自动反爬系统,其特征在于,包括ETL处理单元、行为分析及管理单元、日志分析引擎和请求防护处理单元;
所述ELT处理单元用于对用户端发起请求的request信息进行ETL处理,将得到的UID和URI数据传输至所述行为分析及管理单元、所述日志分析引擎和所述请求防护处理单元;
所述行为分析及管理单元用于:以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成UID的行为集合、行为集合统计指标和与业务场景相关的统计指标;以所述行为集合为主键聚合,生成分析视图,以判断所述行为集合是否为威胁行为集合;若判断所述行为集合为威胁行为集合,则将威胁行为集合记录到威胁行为数据库,并跟踪所述请求防护处理单元的处理结果,用于生成历史处理指标;
所述行为分析及管理单元的最小输入、输出和内部处理逻辑为:业务专家或策略专家可使用所述分析视图时,依据行为集合的包括历史处理量、访问频率、URI数据种类和URI数据数量的指标标记威胁行为集合,所述半自动反爬系统根据所述行为集合统计指标,自动生成处置策略参数并推送到威胁行为数据库中,供爬虫实时监测使用;
所述日志分析引擎用于为接收到的UID和URI数据提供可扩展的存储能力,以及用于为所述行为集合统计指标和与业务场景相关的统计指标的计算提供高可用的算力;
所述请求防护处理单元用于根据从所述ELT处理单元接...

【专利技术属性】
技术研发人员:陈芝茂同锋蔡月月
申请(专利权)人:北京人人云图信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1