【技术实现步骤摘要】
反爬虫方法和装置
本专利技术涉及计算机
,尤其涉及一种反爬虫方法和装置。
技术介绍
爬虫技术起源于早期互联网流行的全文搜索引擎抓取网页数据的下载系统。在互联网中,各式各样的网页可以看作一个异常巨大的有向图,这个图的节点有上百亿个。抓取程序从其中一个节点开始按照深度优先和广度优先相结合的方式遍历网络,直观的看就像一个或者多个蜘蛛在网络上爬行。在互联网发展的早期,爬虫程序可以让网站被搜索引擎或者导航网站收录,不仅有助于的网站推广,而且也能使用户更快地找到想要获取的信息,对网站拥有者和用户双方都非常有益。进而,产生了网络爬虫排除协议(RobotsExclusionProtocol,REP)这样的君子协定。REP协议规定在站点根目录下使用robots.txt文件来定义哪些页面信息可以被爬虫程序采集,哪些页面信息不允许被采集。随着互联网和移动通讯技术的飞速发展,Web页面的载体从传统的PC端扩展到各种移动设备、甚至智能家电和其他物联网设备中。与此同时,爬虫的类型日益丰富,数量日益庞大,所采用的技术手段也越来越先进。目前,非法网络爬虫出于商业目的采集未被REP协议许可的网页信息,甚至是非法采集用户的敏感个人信息,已经成为不容忽视的问题。非法网络爬虫的危害主要有如下几点:第一,网络爬虫的大量访问请求会占用Web服务器内存和CPU资源,给服务器带来巨大的负荷,导致服务器性能下降,影响正常用户的体验;第二,大量的爬虫请求会大量消耗服务器的网络带宽,带来额外的网络费用,增加了企业的网络带宽成本;第三,影响搜索引擎对 ...
【技术保护点】
1.一种反爬虫方法,其特征在于,所述方法包括:/n基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件;/n响应于客户端的数据获取请求,基于第二密钥和第二加密算法加密结果数据;其中,所述第二密钥为第一密钥的反向密钥,所述第二加密算法为第一加密算法的逆向加密算法;/n将加密后的结果数据和字体文件标识发送至所述客户端,以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。/n
【技术特征摘要】
1.一种反爬虫方法,其特征在于,所述方法包括:
基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件;
响应于客户端的数据获取请求,基于第二密钥和第二加密算法加密结果数据;其中,所述第二密钥为第一密钥的反向密钥,所述第二加密算法为第一加密算法的逆向加密算法;
将加密后的结果数据和字体文件标识发送至所述客户端,以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件之前,通过伪随机数生成器生成所述第一密钥。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述基于第二密钥和第二加密算法加密结果数据之前,获取第一密钥,对所述第一密钥的组成元素的顺序进行反向以得到所述第二密钥。
4.根据权利要求3所述的方法,其特征在于,所述第一加密算法为洗牌算法;所述基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件包括:
将原始字体文件解析成XML文件;基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱;对洗牌打乱后的XML文件进行文件格式转换,以得到目标字体文件。
5.根据权利要求4所述的方法,其特征在于,基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱包括:
基于第一密钥和所述洗牌算法对不同字符子标签下的名称属性值进行互换;或者;基于第一密钥和所述洗牌算法对不同字形子标签下的名称属性值进行互换。
6.根据权利要求4所述的方法,其特征在于,所述基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件还包括:对第一密钥进行哈希加密以得到消息摘要字符串,将所述消息摘要字符串作为所述目标字体文件的文件名后缀。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据之前,查询浏览器缓存,以从所述浏览器缓存中获取所述字体文件标识对应的目标字体文件;如果从浏览器缓存中获取不到所述字体文件标识对应的目标字体文件,从预设的引用资源地址获取所述字体文件标识对应的目标字体文件。
8.根据权利要求7所述的方法,其特征在于,所述字体文件标识包括:对第一密钥进行哈希加密得到的消息摘要字符串。
9.根据权利要求1所述的方...
【专利技术属性】
技术研发人员:张驰,简志枰,张舜华,任文涛,汪楠,吴兴,谭汉坚,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。