本发明专利技术公开了一种基基于组合式网络爬虫防御技术的页面显示方法、装置和电子设备,包括:建立网络地址黑名单池,构建请求识别规则;网站服务器获取用户通过客户端浏览器提出访问请求信息;网站服务器对用户进行网络爬虫初步筛选;生成页面内容,且使用加密规则对页面内容中待加密内容进行加密,并依据加密规则构建解密规则插入至页面内容中;用户的客户端浏览器从网站服务器获取加密后的页面内容及解密规则,依据解密规则对页面内容进行解密并根据页面内容渲染生成页面进行显示。本方法通过多角度多层次,主动被动相结合的防御措施,提高对恶意抓取网页内容的网络爬虫的识别,从而保障用户隐私和对网站的正常使用。
Page display methods, devices and electronic devices based on combined web crawler Defense Technology
【技术实现步骤摘要】
基于组合式网络爬虫防御技术的页面显示方法、装置和电子设备
本专利技术涉及计算机信息处理领域,具体而言,涉及一种基于组合式网络爬虫防御技术的页面显示方法、装置、电子设备及计算机可读介质。
技术介绍
随着互联网技术不断深入人类生活、生产的各个方面,互联网已成为人类信息创造及存储的最大载体。近年来,大数据技术的进步加强了对海量数据处理应用的能力,数据愈发成为宝贵的资源。网络爬虫是一种按照一定的规则自动抓取互联网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。由于网络爬虫的策略是尽可能多的抓取网站中的高价值信息,会根据特定策略尽可能多的访问页面,占用网络带宽并增加Web服务器的处理开销,会导致正常用户网络带宽不足从而影响使用体验。恶意用户可以利用爬虫程序对Web站点发动DoS攻击,使Web服务在大量爬虫程序的暴力访问下,资源耗尽而不能提供正常服务。此外,恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途。因此,如何对网络爬虫进行有效的防御已成为互联网安全亟需解决的关键性问题。现有技术中,通过验证码、网页加密等手段可对网络爬虫程序进行初步防范。随着人工智能水平的提高,现有防御手段已不能有效的防止网络爬虫对网页数据的抓取,因此需要一种立体组合式网络爬虫防御方法。
技术实现思路
本专利技术的目的在于,提供一种基于组合式网络爬虫防御技术的页面显示方法、装置和电子设备,旨在通过多角度多层次,主动被动相结合的防御措施,提高对恶意抓取网页内容的网络爬虫的识别,从而保障用户隐私和对网站的正常使用。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。为实现上述目的,本专利技术一方面提供一种基于组合式网络爬虫防御技术的页面显示方法,包括:建立网络地址黑名单池,并构建请求识别规则;网站服务器获取用户通过客户端浏览器提出访问请求信息;所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选;所述网站服务器根据初步筛选通过的用户的访问请求信息生成页面内容,且使用加密规则对所述页面内容中待加密内容进行加密,并依据所述加密规则构建解密规则插入至所述页面内容中;所述用户的客户端浏览器从所述网站服务器获取加密后的页面内容及解密规则,依据所述解密规则对所述页面内容进行解密并根据所述页面内容渲染生成页面进行显示。根据本专利技术的一种优选实施方式,所述访问请求信息包括:所述用户网络地址信息、所述用户访问请求内容信息及所述用户访问请求命令。根据本专利技术的一种优选实施方式,所述构建识别规则步骤包括:构建访问请求命令类型排除池,获取访问请求命令类型,比较所述访问请求命令类型是否与所述访问请求命令类型排除池,将比较结果为一致的用户识别为网络爬虫。根据本专利技术的一个优选实施方式,所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选步骤还包括:所述网站服务器获取所述用户的访问请求信息中所述用户网络地址信息及访问请求命令,比较所述用户的网络地址信息是否在所述网络地址黑名单池中,以及使用所述请求识别规则识别所述用户请求,将符合所述网络地址黑名单池和/或所述请求识别规则的用户识别为网络爬虫予以排除。根据本专利技术的一个优选实施方式,还包括所述加密规则包括一种加密算法或多种加密算法的组合,其中所述多种加密算法的组合包括使用相同或不同的加密算法对所述待加密内容进行多重加密,在先加密后生成的内容作为在后加密算法的加密对象。根据本专利技术的一个优选实施方式,所述网站服务器根据加密规则对页面内容中待加密内容进行加密后进一步包括:批量抓取工具抓取所述页面内容为加密后数据。根据本专利技术的一个优选实施方式,所述解密规则进一步包括:对应于所述加密规则中所述加密算法或所述加密算法组合的解密算法或解密算法的组合。根据本专利技术的一个优选实施方式,所述加密算法包括单字母替换加密算法、多字母替换加密算法、字体加密算法、栅栏密码加密算法、进制转换密码加密算法等。本专利技术的第二方面提供了一种基于组合式网络爬虫防御技术的页面显示装置,包括:网络爬虫初步筛选模块,其构建于网站服务器上,包括网络地址黑名单池单元和访问请求识别规则单元,用于对用户进行网络爬虫初步筛查;内容提供模块,位于所述网站服务器上,用于根据用户请求提供网页内容;加密解密模块,位于所述网站服务器上,用于对所述网页内容中待加密内容通过加密规则进行加密,并依据所述加密规则构建解密规则插入至网页内容中;网页浏览器,位于客户端,用于向所述网站服务器提出访问请求信息并获取所述网站服务器提供的加密后的网页内容及解密规则,依据所述解密规则对所述加密后的网页内容进行解密并根据解密后的页面内容渲染生成页面进行显示。根据本专利技术的一种优选实施方式,所述网页浏览器向所述网站服务器提出的所述访问请求信息进一步包括所述用户的网络地址信息、所述用户访问请求内容信息及所述用户访问请求命令。根据本专利技术的一种优选实施方式,所述访问请求识别规则单元进一步包括:访问请求命令类型排除池,其中包括至少一种请求命令类型,命令类型提取组件,用于从所述访问请求信息种提取所述用户访问请求命令类型,比较识别组件,用于比较提取的命令类型与所述访问请求命令类型排除池中请求命令类型是否一致,将比较结果一致的用户识别为网络爬虫。根据本专利技术的一种优选实施方式,还包括:所述网站服务器获取所述用户的访问信息中所述用户网络地址信息及访问请求命令,所述网络地址黑名单池单元比较所述用户网络地址信息是否存在于所述黑名单池中,所述访问请求识别规则单元识别所述访问请求命令,网站服务器将所述网络地址黑名单池单元和/或所述访问请求识别规则单元筛选出的用户识别为网络爬虫予以排除。根据本专利技术的一种优选实施方式,还包括:所述加密规则包括一种加密算法或多种加密算法的组合,其中所述多种加密算法的组合包括使用相同或不同的加密算法对所述待加密内容进行多重加密,在先加密后生成的内容作为在后加密算法的加密对象。根据本专利技术的一种优选实施方式,所述网站服务器上利用所述加密解密模块用于对所述网页内容中待加密内容通过加密规则进行加密后进一步包括:批量抓取工具抓取所述页面内容为加密后数据。根据本专利技术的一种优选实施方式,所述解密规则进一步包括:对应于所述加密规则中所述加密算法或所述加密算法组合的解密算法或解密算法组合。根据本专利技术的一种优选实施方式,所述加密算法包括单字母替换加密算法、多字母替换加密算法、字体加密算法、栅栏密码加密算法、进制转换密码加密算法等。本专利技术的第三方面提供一种电子设备,其中,该电子设备包括:处理器;以及,存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述的基于组本文档来自技高网...
【技术保护点】
1.一种基于组合式网络爬虫防御技术的页面显示方法,其特征在于,包括:/n建立网络地址黑名单池,并构建请求识别规则;/n网站服务器获取用户通过客户端浏览器提出访问请求信息;/n所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选;/n所述网站服务器根据初步筛选通过的用户的访问请求信息生成页面内容,且使用加密规则对所述页面内容中待加密内容进行加密,并依据所述加密规则构建解密规则插入至所述页面内容中;/n所述用户的客户端浏览器从所述网站服务器获取加密后的页面内容及解密规则,依据所述解密规则对所述页面内容进行解密并根据所述页面内容渲染生成页面进行显示。/n
【技术特征摘要】
1.一种基于组合式网络爬虫防御技术的页面显示方法,其特征在于,包括:
建立网络地址黑名单池,并构建请求识别规则;
网站服务器获取用户通过客户端浏览器提出访问请求信息;
所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选;
所述网站服务器根据初步筛选通过的用户的访问请求信息生成页面内容,且使用加密规则对所述页面内容中待加密内容进行加密,并依据所述加密规则构建解密规则插入至所述页面内容中;
所述用户的客户端浏览器从所述网站服务器获取加密后的页面内容及解密规则,依据所述解密规则对所述页面内容进行解密并根据所述页面内容渲染生成页面进行显示。
2.根据权利要求1所述的方法,其特征在于,所述访问请求信息包括:所述用户网络地址信息、所述用户访问请求内容信息及所述用户访问请求命令。
3.根据权利要求1-2所述的方法,其特征在于,所述构建识别规则步骤包括:
构建访问请求命令类型排除池;
获取访问请求命令类型;
比较所述访问请求命令类型是否与所述访问请求命令类型排除池;
将比较结果为一致的用户识别为网络爬虫。
4.根据权利要求1-3所述的方法,其特征在于,所述网站服务器基于所述访问请求信息利用所述网络地址黑名单池及所述请求识别规则对所述用户进行网络爬虫初步筛选步骤进一步包括:
所述网站服务器获取所述用户的访问请求信息中所述用户网络地址信息及访问请求命令;
比较所述用户的网络地址信息是否在所述网络地址黑名单池中,以及使用所述请求识别规则识别所述用户请求;
将符合所述网络地址黑名单池和/或所述请求识别规则的用户识别为网络爬虫予以排除。
5.根据权利要求1-4所述的方法,其特征...
【专利技术属性】
技术研发人员:海启龙,苏绥绥,常富洋,
申请(专利权)人:北京淇瑀信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。