【技术实现步骤摘要】
爬虫确定方法、装置、设备和存储介质
[0001]本申请涉及网络安全领域,尤其涉及爬虫确定方法、装置、设备和存储介质。
技术介绍
[0002]爬虫通常是指对目标网站进行自动化浏览的脚本或者程序,包括使用requests库编写脚本等。随着互联网的不断发展,爬虫愈发常见,并占用了大量的网络资源。由爬虫产生的网络流量占总流量的37.2%,其中由恶意爬虫产生的流量约占65%。如何在网络流量中识别爬虫,是判断爬虫行为意图的前提,常见的使用爬虫的场景包括:搜索引擎等使用爬虫爬取网站上的信息,研究机构使用爬虫搜集数据,以及攻击者使用爬虫搜集用户信息、识别软件后门等。准确的确定出爬虫对维护网络安全至关重要。
[0003]常用的爬虫确定方法通过判断访问请求方是否符合用户白名单来确定是否为爬虫,而一些高级的爬虫可以伪装成用户白名单的用户,导致爬虫确定错误。可见,现有的爬虫确定方法的确定精度较低。
技术实现思路
[0004]本申请实施例提供爬虫确定方法、装置、设备和存储介质,提升了爬虫确定的精度。
[0005]为实现 ...
【技术保护点】
【技术特征摘要】
1.一种爬虫确定方法,其特征在于,包括:获取待识别对象在预设时间段内使用目标系统中页面的应用记录,其中,所述应用记录包括所述待识别对象在所述预设时间段内调用的页面,以及调用所述页面时应用的应用程序编程接口;在所述应用记录不符合所述页面绑定的预设应用程序编程接口的情况下,将所述待识别对象确定为爬虫。2.如权利要求1所述的爬虫确定方法,其特征在于,所述获取待识别对象在预设时间段内使用目标系统中页面的应用记录,包括:获取所述待识别对象在所述预设时间段内针对所述目标系统的接口调用请求的请求记录;其中,所述接口调用请求包括请求的所述应用程序编程接口和请求的所述应用程序编程接口绑定的所述页面;根据所述请求记录生成所述应用记录。3.如权利要求1或2所述的爬虫确定方法,其特征在于,在所述应用记录符合所述页面绑定的预设应用程序编程接口的情况下,所述方法还包括:剔除所述应用记录中不符合预设接口调用条件的所述页面,得到剔除后的所述应用记录;根据剔除后的所述应用记录生成所述待识别对象在所述预设时间段内前后依次调用的所述页面的有向图,所述有向图包括节点和有向边,所述节点用于表征所述页面,所述待识别对象的调用顺序相邻的两个所述页面对应的两个所述节点用所述有向边连接;在所述有向图包括至少两个子有向图的情况下,将所述待识别对象确定为爬虫,其中,不同的所述子有向图之间无所述有向边连接。4.如权利要求3所述的爬虫确定方法,其特征在于,所述预设接口调用条件包括:所述页面绑定的多个所述应用程序编程接口中超过预设比例的所述应用程序编程接口被调用,和/或,所述页面绑定的多个所述应用程序编程接口中的预设的第一应用程序编程接口被调用。5.如权利要求3所述的爬虫确定方法,其特征在于,在所述有向图不包括至少两个所述子有向图的情况下,所述方法还包括:在所述有向图不符合所述目标系统的所述页面之间预设的可跳转关系的情况下,将所述待识别对象确定为爬虫。6.如权利要求5所述的爬虫确定方法,其特征在于,所述方法还包括:获取所述目标系统对应的超文本标记语言文件;根据所述目标系统对应的超文本标记语言文件确定所述可跳转关系和所述预设应用程序编程接口。7.一种爬虫确定装置,其特征在于,包括:获取模块,用于获取待识别对象在预设时间段内使用目标系统中页面的应用记录,其中,所述应用记录包括所述待识别对象在所述预设时间段内调用的页面,以及调用所述页面时应用的应用...
【专利技术属性】
技术研发人员:王泽源,李争欣,陈晨,林春沛,肖俊阳,王健,王琦,李斯哲,于春梅,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。