一种网络反爬配置方法及反爬方法技术

技术编号:33290471 阅读:12 留言:0更新日期:2022-05-01 00:08
本发明专利技术涉及一种网络反爬配置方法及反爬方法,网络反爬方法中,根据请求字体css的业务请求,随机抓取一个字体文件生成对应的css并返回给所述业务请求的请求端;根据所述业务请求的请求业务,判断所述请求业务的业务接口是否属于配置项,如果是,则基于随机抓取的字体文件,对需要混淆内容进行混淆后返回给所述请求端;所述配置项为基于需要反爬的信息内容进行设置,包括爬取该信息内容的业务接口;所述业务请求中包括请求端的指纹ID。与现有技术相比,该网络反爬方法不需要对接口进行改造,服务接口可以统一设置,不需要每一个服务接口都单独开发,节省了开发的时间成本和人力成本,提高了效率。提高了效率。提高了效率。

【技术实现步骤摘要】
一种网络反爬配置方法及反爬方法


[0001]本专利技术涉及计算机网络
,尤其是涉及一种网络反爬配置方法及反爬方法。

技术介绍

[0002]互联网有接近一半的流量是爬虫创造,这些爬虫有善意的,有恶意的,善意的爬虫能够提升网站流量,增加曝光度,已被更多人发现,如通用搜索引擎。而恶意的爬虫则会造成网站信息泄露,影响用户正常访问,甚至系统崩溃。
[0003]相关技术中,针对善意爬虫通过robots协议引导爬虫,哪些能爬取,哪些不能爬取。针对恶意爬虫,主要有验证码,人机交互识别,字体反爬等手段防止信息泄露或减少信息泄露。
[0004]相关技术中的反爬手段要么技术接入要求较高,要么对用户体验造成影响,或者需要对现有接口进行改造,造成对现有存量系统的侵入式改造,且需要对每一个服务接入都进行单独开发,影响项目的后续交付节奏,并且让对应系统变得不够纯粹,违背了业界微服务等定义,开发的时间成本和人力成本高,且效率低。

技术实现思路

[0005]本专利技术申请提供一种网络反爬配置方法及反爬方法,具有开发成本低且效率高的特点。
[0006]根据本专利技术提供的一种网络反爬配置方法,包括,基于需要反爬的信息内容设置配置项,所述配置项包括爬取该信息内容的业务接口,使得一旦请求字体css业务请求的请求业务的业务接口属于所述配置项,则能够基于随机抓取的字体文件,对需要混淆内容进行混淆后返回给所述业务请求的请求端。
[0007]通过上述技术方案,一旦发现请求的业务接口属于该配置项,则网关获取业务接口返回的数据后,通过字体文件混淆对应接口数据返回给前端,此时返回给前端的数据是被混淆后的乱码,而浏览器则可通过css正确显示,从而实现网络反爬。基于该配置方法,不需要对现有系统进行侵入式改造,且可以对每一个服务接入进行统一配置,而不需要单独开发,开发的时间成本和人力成本低,且效率高。
[0008]可选地,所述配置项还包括字段,设置属于所述配置项的业务接口内容中需要混淆的字段,使得能够基于字体文件,对需要混淆的字段进行混淆。
[0009]根据本专利技术提供的一种网络反爬方法,包括,根据请求字体css的业务请求,随机抓取一个字体文件生成对应的css并返回给所述业务请求的请求端;根据所述业务请求的请求业务,判断所述请求业务的业务接口是否属于配置项,如果是,则基于随机抓取的字体文件,对需要混淆内容进行混淆后返回给所述请求端;所述配置项为基于需要反爬的信息内容进行设置,包括爬取该信息内容的业务接口;所述业务请求中包括请求端的指纹ID。
[0010]通过上述技术方案,不需要对接口进行改造,且可以对每一个服务接入进行统一
配置,而不需要单独开发,开发的时间成本和人力成本低,且效率高。
[0011]可选地,所述随机抓取一个字体文件的方法包括,从字体库中随机抓取一个字典,得到与该字典一一对应的字体文件路径,根据该字体文件路径,得到字体文件;得到的该字体文件中包括页面密文;所述字体库包括多个字典及与字典一一对应的字体文件的路径,所述字典中包括需要混淆内容与页面密文的混淆关系。
[0012]可选地,所述配置项还包括字段,对需要混淆的字段进行混淆。
[0013]可选地,所述方法还包括,设置所述字体文件在同一指纹ID业务请求下的有效时间,若超过所述有效时间,则重新随机抓取一个字体文件,基于重新抓取的字体文件,对需要混淆内容进行混淆后返回给请求端。
[0014]可选地,设置字体文件在同一指纹ID业务请求下的有效时间的方法包括,将指纹ID与字典进行关联并缓存,并设置该缓存的有效时间。
[0015]可选地,所述字体库存储的方式包括以缓存的方式进行存储。
[0016]可选地,所述字体文件包括生僻字。
[0017]本专利技术申请还提供一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种方法的计算机程序。基于该计算机可读存储介质,本专利技术申请还提供一种网络反爬配置系统,具有便于对网络反爬的配置项进行配置的特点,该配置系统包括配置项配置模块,所述配置项配置模块包括业务接口配置接口,用于基于需要反爬的信息内容设置爬取该信息内容的业务接口,使得一旦请求字体css的业务请求的请求业务接口属于所述配置项,则能够基于随机抓取的字体文件,对需要混淆内容进行混淆后返回给请求端。
[0018]可选地,所述配置项配置模块还包括字段配置接口,用于设置属于所述配置项的业务接口内容中需要混淆的字段,使得能够基于字体文件,对需要混淆的字段进行混淆。
[0019]本专利技术申请还提供一种网络反爬系统,具有开发成本低且反爬效率高的特点。该系统包括,css生成模块,根据请求字体css的业务请求,随机抓取一个字体文件生成对应的css并返回给所述业务请求的请求端;接口配置项判断模块,根据所述请求端的请求业务,判断请求的业务接口是否属于配置项;内容混淆模块,基于所抓取的字体文件,对需要混淆内容进行混淆后返回给所述请求端;所述配置项为基于需要反爬的信息内容进行设置,包括爬取该信息内容的业务接口;所述请求业务中包括请求端的指纹ID。
附图说明
[0020]图1是本专利技术其中一实施例的网络反爬方法流程示意图。
具体实施方式
[0021]以下结合附图对本专利技术作进一步详细说明。
[0022]本具体实施例仅仅是对本专利技术的解释,其并不是对本专利技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本专利技术的权利要求范围内都受到专利法的保护。
[0023]本申请实施例提供一种网络反爬配置方法,包括,基于需要反爬的信息内容设置配置项,该配置项包括爬取该信息内容的业务接口,使得一旦请求字体css业务请求的请求业务的业务接口属于配置项,则能够基于随机抓取的一个字体文件,对需要混淆内容进行混淆后返回该业务请求的请求端。
[0024]基于上述配置,可以在携带有指纹ID的前端请求业务接口时,一旦发现请求的业务接口属于该配置项,则网关获取业务接口返回的数据后,通过字体文件混淆对应接口数据返回给前端,此时返回给前端的数据是被混淆后的乱码,而浏览器则可通过css正确显示,从而实现网络反爬。基于该配置方法,对网关和业务接口进行开发,不需要对后台进行开发,不需要对现有系统进行侵入式改造,且可以对每一个服务接入进行统一配置,而不需要单独开发,开发的时间成本和人力成本低,且效率高。
[0025]配置项还包括字段,设置属于配置项的业务接口内容中需要混淆的字段,使得能够基于字体文件,对需要混淆的字段进行混淆。
[0026]基于接口配置的基础上,对接口内容中需要反爬取的字段进行配置,这样,对内容进行混淆的时候,只需要关心字段里面的内容,可以提高反爬效率,降低网络及计算机资源的占用。
[0027]本专利技术实施例还提供一种网络反爬方法,能够基于上述的网络反爬配置方法实现反爬,包括,根据请求字体css的业务请求,随机抓取一个字体文件生成对应的css并返回给所述业务请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络反爬配置方法,其特征在于,包括,基于需要反爬的信息内容设置配置项,所述配置项包括爬取该信息内容的业务接口,使得一旦请求字体css业务请求的请求业务的业务接口属于所述配置项,则能够基于随机抓取的字体文件,对需要混淆内容进行混淆后返回给所述业务请求的请求端。2.根据权利要求1所述配置方法,其特征在于,所述配置项还包括字段,设置属于所述配置项的业务接口内容中需要混淆的字段,使得能够基于抓取的字体文件,对需要混淆的字段进行混淆。3.一种网络反爬方法,其特征在于,包括,根据请求字体css的业务请求,随机抓取一个字体文件生成对应的css并返回给所述业务请求的请求端;根据所述业务请求的请求业务,判断所述请求业务的业务接口是否属于配置项,如果是,则基于随机抓取的字体文件,对需要混淆内容进行混淆后返回给所述请求端;所述配置项为基于需要反爬的信息内容进行设置,包括爬取该信息内容的业务接口;所述业务请求中包括请求端的指纹ID。4.根据权利要求3所述的方法,其特征在于,所述随机抓取一个字体文件的方法包括,从字体库中随机抓取一个字典,得到与该字典一一...

【专利技术属性】
技术研发人员:付冠叶陈龙珠彭卓勋程启飞
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1