一种反爬虫的数据处理方法、装置、系统及存储介质制造方法及图纸

技术编号:23765140 阅读:26 留言:0更新日期:2020-04-11 19:26
本发明专利技术提供了一种反爬虫的数据处理方法、装置、系统以及存储介质,首先获取待替换展示字符及所述待替换展示字符对应的源代码;基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;将所述待替换展示字符对应的源代码替换为所述目标字符编码。这样,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,实现了反爬。并且本反爬方法既能抑制爬虫获取网站的真实数据,又不降低非爬虫用户的操作感。

An anti crawler data processing method, device, system and storage medium

【技术实现步骤摘要】
一种反爬虫的数据处理方法、装置、系统及存储介质
本专利技术涉及数据处理
,尤其涉及一种反爬虫的数据处理方法、装置、系统及存储介质。
技术介绍
网络爬虫可以将访问过的页面进行保存,并对网络索引进行编写,实现获取网站内容以及网站索引的目的。然而,网络爬虫访问网站的过程会消耗该网站的系统资源,如,网站连接数、网络带宽资源以及占用后台服务器的负载等。除此,随着互联网的快速发展,网络信息安全问题日益凸显。出于保护网站数据安全的目的,通常会对网站设置反爬虫机制,来抑制爬虫获取其网站数据。常用的反爬虫机制是通过设置IP访问的频率来对爬虫进行限制,例如,当某一IP的访问频率超过设定的频率,网页进行弹框验证,当验证通过后,该IP可以继续访问网站,当验证不通过后,在预设时间段内,禁止该IP继续访问网站。而设定IP访问频率的方式会降低访问频率较高的非爬虫用户的操作感。因此如何提供一种反爬虫的数据处理方法,既能抑制爬虫获取网站的数据,又不降低非爬虫用户的操作感,成为本领域技术人员亟待解决的一大技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案:一种反爬虫的数据处理方法,包括:获取待替换展示字符及所述待替换展示字符对应的源代码;基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;将所述待替换展示字符对应的源代码替换为所述目标字符编码。可选的,所述获取待替换展示字符,包括:获取反爬文件中的展示字符;对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。可选的,在获取待替换展示字符之前,所述方法还包括:配置常用字符与字符编码的对应关系;和/或,定义字符编码对应的字体样式。可选的,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。可选的,所述方法还包括:按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。一种反爬虫的数据处理装置,包括:第一获取模块,用于获取待替换展示字符及所述待替换展示字符对应的源代码;第一确定模块,用于基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;替换模块,用于将所述待替换展示字符对应的源代码替换为所述目标字符编码。可选的,还包括:配置模块,用于配置常用字符与字符编码的对应关系;和/或,定义字符编码对应的字体样式。可选的,还包括:定时模块,用于按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。一种反爬虫的数据处理系统,包括:存储器,用于存储程序;处理器,用于执行所述程序,所述程序运行时执行任意一项上述的反爬虫的数据处理方法。一种存储介质,存储有程序,所述程序被处理器执行时实现任意一项上述的反爬虫的数据处理方法。借由上述技术方案,本专利技术提供了一种反爬虫的数据处理方法,首先获取待替换展示字符及所述待替换展示字符对应的源代码。然后,基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码。最后,将所述待替换展示字符对应的源代码替换为所述目标字符编码。这样,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,实现了反爬。并且本反爬方法既能抑制爬虫获取网站的真实数据,又不降低非爬虫用户的操作感。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本实施例提供的一种反爬虫的数据处理方法的流程示意图;图2示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;图3示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;图4示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;图5示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;图6示出了本实施例提供的一种反爬虫的数据处理装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。通常,网页具有源代码以及展示字符,用户看到的是展示字符,而网页后台记录的是源代码。例如,一个购物网站,用户看到的展示字符为“冰箱”、“洗衣机”以及对应的价格,而该网页在进行编程时,是通过编写源代码,进而使网页能够显示上述展示字符。并且,网页的编程通常按照预设的编写语言,如C++、java等,其源代码与展示字符的对应关系为本领域技术人员公知。因此,当爬虫获取了网页的源代码之后,能够将源代码解析成网页的真实内容,进而盗取网页数据。正如
技术介绍
所述,常用的反爬虫机制是通过设置IP访问的频率来对爬虫进行限制,例如,当某一IP的访问频率超过设定的频率,网页进行弹框验证,当验证通过后,该IP可以继续访问网站,当验证不通过后,在预设时间段内,禁止该IP继续访问网站。而设定IP访问频率的方式会降低访问频率较高的非爬虫用户的操作感。基于此,本专利技术实施例提供了一种反爬虫的数据处理方法,既能抑制爬虫获取网站的数据,又不降低非爬虫用户的操作感。具体的,如表1所示,本实施预先配置常用字符与字符编码的对应关系。其中,常用字符为网页上的展示字符,字符编码为自定义的至少一套字符编码。示意性的,假设配置的常用字符与字符编码的对应关系如下表1所示:表1常用字符字符编码你A们B本文档来自技高网
...

【技术保护点】
1.一种反爬虫的数据处理方法,其特征在于,包括:/n获取待替换展示字符及所述待替换展示字符对应的源代码;/n基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;/n将所述待替换展示字符对应的源代码替换为所述目标字符编码。/n

【技术特征摘要】
1.一种反爬虫的数据处理方法,其特征在于,包括:
获取待替换展示字符及所述待替换展示字符对应的源代码;
基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
将所述待替换展示字符对应的源代码替换为所述目标字符编码。


2.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述获取待替换展示字符,包括:
获取反爬文件中的展示字符;
对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。


3.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,在获取待替换展示字符之前,所述方法还包括:
配置常用字符与字符编码的对应关系;和/或,
定义字符编码对应的字体样式。


4.根据权利要求3所述的反爬虫的数据处理方法,其特征在于,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:
根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。


5.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述方法还包括:
按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设...

【专利技术属性】
技术研发人员:李可欣
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1