【技术实现步骤摘要】
一种反爬虫的数据处理方法、装置、系统及存储介质
本专利技术涉及数据处理
,尤其涉及一种反爬虫的数据处理方法、装置、系统及存储介质。
技术介绍
网络爬虫可以将访问过的页面进行保存,并对网络索引进行编写,实现获取网站内容以及网站索引的目的。然而,网络爬虫访问网站的过程会消耗该网站的系统资源,如,网站连接数、网络带宽资源以及占用后台服务器的负载等。除此,随着互联网的快速发展,网络信息安全问题日益凸显。出于保护网站数据安全的目的,通常会对网站设置反爬虫机制,来抑制爬虫获取其网站数据。常用的反爬虫机制是通过设置IP访问的频率来对爬虫进行限制,例如,当某一IP的访问频率超过设定的频率,网页进行弹框验证,当验证通过后,该IP可以继续访问网站,当验证不通过后,在预设时间段内,禁止该IP继续访问网站。而设定IP访问频率的方式会降低访问频率较高的非爬虫用户的操作感。因此如何提供一种反爬虫的数据处理方法,既能抑制爬虫获取网站的数据,又不降低非爬虫用户的操作感,成为本领域技术人员亟待解决的一大技术问题。 ...
【技术保护点】
1.一种反爬虫的数据处理方法,其特征在于,包括:/n获取待替换展示字符及所述待替换展示字符对应的源代码;/n基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;/n将所述待替换展示字符对应的源代码替换为所述目标字符编码。/n
【技术特征摘要】
1.一种反爬虫的数据处理方法,其特征在于,包括:
获取待替换展示字符及所述待替换展示字符对应的源代码;
基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
将所述待替换展示字符对应的源代码替换为所述目标字符编码。
2.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述获取待替换展示字符,包括:
获取反爬文件中的展示字符;
对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。
3.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,在获取待替换展示字符之前,所述方法还包括:
配置常用字符与字符编码的对应关系;和/或,
定义字符编码对应的字体样式。
4.根据权利要求3所述的反爬虫的数据处理方法,其特征在于,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:
根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。
5.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述方法还包括:
按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设...
【专利技术属性】
技术研发人员:李可欣,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。