【技术实现步骤摘要】
一种访问请求处理的方法、系统、设备及可读存储介质
本申请涉及访问请求处理领域,特别涉及一种访问请求处理的方法、系统、设备及可读存储介质。
技术介绍
网络爬虫是用户通过脚本或程序向目的网页发起请求,接收到来自服务器的响应后,解析网页内容,提取所需数据信息,存储到对应数据集中的过程。国内外的诸多搜索引擎原理就是通过爬虫实现的,爬虫程序在万维网上遍历网站上的每个链接,并搜集每个网页的信息存储到数据库或其他存储容器中。随着互联网的兴起,数据时代也随之繁荣起来,网络上的爬虫行为也日益增多。一些非法用户为了牟求利益或者达到某种目的,编写爬虫脚本发起恶意网站攻击,危害网络健康。带来的直接影响就是使得真实用户上网体验变差,间接上会损失相关网站利益。大部分网站为了防止恶意爬虫的访问,会对用户的请求做一些限制措施,如:限制IP的访问频率,判断请求中用户代理,请求来源链接等字段是否存在,IP的下载访问统计,访问资源类型检测等。初级爬虫往往被检测出后便会被重定向到验证页面或被封禁后续访问。然而,能够模拟用户行为的高匿爬虫往往通过代理 ...
【技术保护点】
1.一种访问请求处理的方法,其特征在于,包括:/n获取网站流量日志文件;/n将所述网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件;/n从所述可疑日志文件中提取可疑特征信息;/n当接收到访问请求时,判断所述访问请求中的特征信息是否为所述可疑特征信息;/n若是,则将所述访问请求重定向至验证界面。/n
【技术特征摘要】
1.一种访问请求处理的方法,其特征在于,包括:
获取网站流量日志文件;
将所述网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件;
从所述可疑日志文件中提取可疑特征信息;
当接收到访问请求时,判断所述访问请求中的特征信息是否为所述可疑特征信息;
若是,则将所述访问请求重定向至验证界面。
2.根据权利要求1所述的方法,其特征在于,将所述网站流量日志文件中IP地址为代理IP的日志文件标记为可疑日志文件,包括:
从预设代理网站中收集所述代理IP,并将所述代理IP存入代理数据库中;
通过正则表达式提取所述网站流量日志文件中的来源IP,并判断所述代理数据库中是否存在所述来源IP;
若是,则将所述来源IP对应的日志文件标记为所述可疑日志文件。
3.根据权利要求2所述的方法,其特征在于,还包括:
定期使用检测脚本对所述代理数据库中的代理IP进行可用性验证;
将未通过所述可用性验证的代理IP删除。
4.根据权利要求1所述的方法,其特征在于,在将所述访问请求重定向至验证界面之后,还包括:
获取所述访问请求的来源IP的访问次数;
当所述访问次数大于阈值时,禁止所述访问请求的来源IP发起访问。
5.根据权利要求1所述的方法,其特征在于,当所述可疑特征信息包括用户代理时,从所述可疑日志文件中提取可疑特征信息,包括:
将所述可疑日志文件中对应多个不同代理IP的用户代理标记为可疑用户代理;
判断所述可疑用户代理发起的请求数是否超过...
【专利技术属性】
技术研发人员:叶亮,范渊,莫凡,刘博,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。