【技术实现步骤摘要】
基于组合式网络爬虫防御技术的页面显示方法、装置和电子设备
本专利技术涉及计算机信息处理领域,具体而言,涉及一种基于组合式网络爬虫防御技术的页面显示方法、装置、电子设备及计算机可读介质。
技术介绍
随着互联网技术不断深入人类生活、生产的各个方面,互联网已成为人类信息创造及存储的最大载体。近年来,大数据技术的进步加强了对海量数据处理应用的能力,数据愈发成为宝贵的资源。网络爬虫是一种按照一定的规则自动抓取互联网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。由于网络爬虫的策略是尽可能多的抓取网站中的高价值信息,会根据特定策略尽可能多的访问页面,占用网络带宽并增加Web服务器的处理开销,会导致正常用户网络带宽不足从而影响使用体验。恶意用户可以利用爬虫程序对Web站点发动DoS攻击,使Web服务在大量爬虫程序的暴力访问下,资源耗尽而不能提供正常服务。此外,恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当 ...
【技术保护点】
1.一种基于组合式网络爬虫防御技术的页面显示方法,其特征在于,包括:/n建立网络地址黑名单池,并构建请求识别规则;/n网站服务器获取用户通过客户端浏览器提出访问请求信息;/n所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选;/n所述网站服务器根据初步筛选通过的用户的访问请求信息生成页面内容,且使用加密规则对所述页面内容中待加密内容进行加密,并依据所述加密规则构建解密规则插入至所述页面内容中;/n所述用户的客户端浏览器从所述网站服务器获取加密后的页面内容及解密规则,依据所述解密规则对所述页面内容进行解密并根据所述页面内 ...
【技术特征摘要】
1.一种基于组合式网络爬虫防御技术的页面显示方法,其特征在于,包括:
建立网络地址黑名单池,并构建请求识别规则;
网站服务器获取用户通过客户端浏览器提出访问请求信息;
所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选;
所述网站服务器根据初步筛选通过的用户的访问请求信息生成页面内容,且使用加密规则对所述页面内容中待加密内容进行加密,并依据所述加密规则构建解密规则插入至所述页面内容中;
所述用户的客户端浏览器从所述网站服务器获取加密后的页面内容及解密规则,依据所述解密规则对所述页面内容进行解密并根据所述页面内容渲染生成页面进行显示。
2.根据权利要求1所述的方法,其特征在于,所述访问请求信息包括:所述用户网络地址信息、所述用户访问请求内容信息及所述用户访问请求命令。
3.根据权利要求1-2所述的方法,其特征在于,所述构建识别规则步骤包括:
构建访问请求命令类型排除池;
获取访问请求命令类型;
比较所述访问请求命令类型是否与所述访问请求命令类型排除池;
将比较结果为一致的用户识别为网络爬虫。
4.根据权利要求1-3所述的方法,其特征在于,所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选步骤进一步包括:
所述网站服务器获取所述用户的访问请求信息中所述用户网络地址信息及访问请求命令;
比较所述用户的网络地址信息是否在所述网络地址黑名单池中,以及使用所述请求识别规则识别所述用户请求;
将符合所述网络地址黑名单池和/或所述请求识别规则的用户识别为网络爬虫予以排除。
5.根据权利要求1-4所述的方法,其特征...
【专利技术属性】
技术研发人员:海启龙,苏绥绥,常富洋,
申请(专利权)人:北京淇瑀信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。