一种反爬虫的数据处理方法、装置、系统及存储介质制造方法及图纸

技术编号:23765140 阅读:36 留言:0更新日期:2020-04-11 19:26
本发明专利技术提供了一种反爬虫的数据处理方法、装置、系统以及存储介质,首先获取待替换展示字符及所述待替换展示字符对应的源代码;基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;将所述待替换展示字符对应的源代码替换为所述目标字符编码。这样,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,实现了反爬。并且本反爬方法既能抑制爬虫获取网站的真实数据,又不降低非爬虫用户的操作感。

An anti crawler data processing method, device, system and storage medium

【技术实现步骤摘要】
一种反爬虫的数据处理方法、装置、系统及存储介质
本专利技术涉及数据处理
,尤其涉及一种反爬虫的数据处理方法、装置、系统及存储介质。
技术介绍
网络爬虫可以将访问过的页面进行保存,并对网络索引进行编写,实现获取网站内容以及网站索引的目的。然而,网络爬虫访问网站的过程会消耗该网站的系统资源,如,网站连接数、网络带宽资源以及占用后台服务器的负载等。除此,随着互联网的快速发展,网络信息安全问题日益凸显。出于保护网站数据安全的目的,通常会对网站设置反爬虫机制,来抑制爬虫获取其网站数据。常用的反爬虫机制是通过设置IP访问的频率来对爬虫进行限制,例如,当某一IP的访问频率超过设定的频率,网页进行弹框验证,当验证通过后,该IP可以继续访问网站,当验证不通过后,在预设时间段内,禁止该IP继续访问网站。而设定IP访问频率的方式会降低访问频率较高的非爬虫用户的操作感。因此如何提供一种反爬虫的数据处理方法,既能抑制爬虫获取网站的数据,又不降低非爬虫用户的操作感,成为本领域技术人员亟待解决的一大技术问题。
技术实现思路
本文档来自技高网
...

【技术保护点】
1.一种反爬虫的数据处理方法,其特征在于,包括:/n获取待替换展示字符及所述待替换展示字符对应的源代码;/n基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;/n将所述待替换展示字符对应的源代码替换为所述目标字符编码。/n

【技术特征摘要】
1.一种反爬虫的数据处理方法,其特征在于,包括:
获取待替换展示字符及所述待替换展示字符对应的源代码;
基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
将所述待替换展示字符对应的源代码替换为所述目标字符编码。


2.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述获取待替换展示字符,包括:
获取反爬文件中的展示字符;
对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。


3.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,在获取待替换展示字符之前,所述方法还包括:
配置常用字符与字符编码的对应关系;和/或,
定义字符编码对应的字体样式。


4.根据权利要求3所述的反爬虫的数据处理方法,其特征在于,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:
根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。


5.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述方法还包括:
按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设...

【专利技术属性】
技术研发人员:李可欣
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1