一种网页信息反爬虫方法、装置、系统、设备及存储介质制造方法及图纸

技术编号:39184421 阅读:8 留言:0更新日期:2023-10-27 08:31
本发明专利技术适用于计算机领域,提供了一种网页信息反爬虫方法、装置、系统、设备及存储介质。其中,方法包括:接收终端发送的信息获取请求;将待返回信息中预设的关键信息转换为图片数据;对所述图片数据进加密,得到加密图片数据;将所述待返回信息以及加密图片数据返回至所述终端,使得终端能够正常地将加密图像数据中的信息渲染出来,从而不影响用户的正常浏览,而在爬虫爬取网页数据时,得到的只是无意义的乱码,从而使得爬虫无法获取关键信息,进而提高反爬虫效果。高反爬虫效果。高反爬虫效果。

【技术实现步骤摘要】
一种网页信息反爬虫方法、装置、系统、设备及存储介质


[0001]本专利技术属于计算机领域,尤其涉及一种网页信息反爬虫方法、装置、系统、设备及存储介质。

技术介绍

[0002]爬虫,也被称为网络爬虫、网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。而网站所有者为了避免网页信息被他人通过爬虫自动采集,或者是减轻爬虫给服务器带来的巨大压力,会采用一定的反爬虫策略以遏制爬虫。
[0003]现有的反爬虫策略是:在用户登录时,需要用户与验证码进行一定的交互,从而根据用户的操作以判断用户是否爬虫,或者是:限制IP的请求频率,从而避免一个IP地址在短时间内频繁地访问,以降低服务器的压力。
[0004]但现有技术的反爬虫策略的反爬虫的效果不够理想。

技术实现思路

[0005]本申请实施例的目的在于提供一种网页信息反爬虫方法,旨在解决现有反爬虫策略的反爬虫效果较差的技术问题。
[0006]本申请实施例是这样实现的,一种网页信息反爬虫方法,应用于服务器,所述方法包括:接收终端发送的信息获取请求;将待返回信息中预设的关键信息转换为图片数据;对所述图片数据进加密,得到加密图片数据;将所述待返回信息以及加密图片数据返回至所述终端。
[0007]本申请实施例的另一目的在于一种网页信息反爬虫方法,应用于终端,包括:向服务器发送信息获取请求;接收并直接展示服务器返回的待返回信息以及加密图片数据。
[0008]本申请实施例的另一目的在于一种网页信息反爬虫装置,包括:信息获取请求接收模块,用于接收终端发送的信息获取请求;关键信息转换模块,用于将待返回信息中预设的关键信息转换为图片数据;图片数据加密模块,用于对所述图片数据进加密,得到加密图片数据;以及,信息返回模块,用于将所述待返回信息以及加密图片数据返回至所述终端。
[0009]本申请实施例的另一目的在于一种网页信息反爬虫系统,包括:服务器,由如上述网页信息反爬虫装置控制;终端,向服务器发送信息获取请求,接收并直接展示所述服务器返回的待返回信息以及加密图片数据。
[0010]本申请实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述
一种网页信息反爬虫方法的步骤。
[0011]本申请实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行上述一种网页信息反爬虫方法的步骤。
[0012]本申请实施例提供的一种网页信息反爬虫方法,通过接收终端发送的信息获取请求,将信息获取请求所获取的待返回信息中的关键信息转换为图片数据,并对所述图片数据进加密,得到加密图片数据,再将所述待返回信息以及加密图片数据返回至所述终端,使得终端能够正常地将加密图像数据中的信息渲染出来,从而不影响用户的正常浏览,而在爬虫爬取网页数据时,得到的只是无意义的乱码,从而使得爬虫无法获取关键信息,进而提高反爬虫效果。
附图说明
[0013]图1为本申请实施例提供的一种网页信息反爬虫系统的结构示意图;图2为本申请实施例提供的一种网页信息反爬虫方法的流程图;图3为本申请实施例提供的一种将关键信息转换为图片数据方法的流程图;图4为本申请实施例提供的另一种网页信息反爬虫方法的流程图;图5为本申请实施例提供的待返回数据在终端的渲染图;图6为本申请实施例提供的又一种网页信息反爬虫方法的流程图;图7为本申请实施例提供的一种网页信息反爬虫装置的结构图;图8为本申请实施例提供的一种关键信息转换模块的结构图;图9为本申请实施例提供的另一种网页信息反爬虫装置的结构图;图10为一个实施例中计算机设备的内部结构框图。
具体实施方式
[0014]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0015]可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
[0016]图1为本申请实施例提供的网页信息反爬虫系统的结构示意图,如图1所示,该系统包括终端110以及计算机设备120。
[0017]计算机设备120可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。
[0018]终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及计算机设备120可以通过网络进行连接,本申请在此不做限制。
[0019]在一个实施例中,如图2所示,一种网页信息反爬虫方法,应用于图1中的计算机设备120,该方法包括:步骤S202:接收终端发送的信息获取请求。
[0020]其中,当用户打开某个网页时,终端110会向计算机设备120发送信息获取请求,以得到该页面的所有信息,然后进行渲染,从而将页面展示给用户。
[0021]步骤S204:将待返回信息中预设的关键信息转换为图片数据。
[0022]其中,当计算机设备120接收到终端110所发送的信息获取请求之后,从其数据库中调取并整合该信息获取请求所请求的信息,得到待返回信息。但由于计算机设备120无法确定该信息获取请求是由爬虫发起还是正常用户发起,且网站所有者不想网站中的数据被爬虫轻易地得到,因而网站所有者可以将一些数据设置为关键信息,而计算机设备120在确定待返回信息中存在关键信息时,会将关键信息转换为图片,即以图片的形式展示关键信息。
[0023]步骤S206:对所述图片数据进加密,得到加密图片数据。
[0024]其中,在将关键信息转换为图片之后,再对该图片进行加密,从而使得爬虫即使将网页数据爬取下来,爬虫的所有者也无法理解网页信息中的关键信息。图片的加密方式可以是基于对称的加密算法,或者是基于非对称的加密算法,本申请在此不做具体限制。优选地,采用base64加密算法对图片进行加密,从而使得终端110在得到加密图片数据时,可以快速地进行渲染,减少终端110响应时间,从而使得本申请的反爬虫策略不会影响正常用户的使用。
[0025]步骤S208:将所述待返回信息以及加密图片数据返回至所述终端。
[0026]其中,终端在得到待返回信息以及加密图片数据之后,会将其进行渲染,从而将页面展示给用户,不会影响用户的正常使用。而对于爬虫来说,其得到的是加密图片数据,而加密图片数据相当于无意义的乱码,从而阻止爬虫获取网页的重要信息,提高了爬虫所有者获取有效信息的成本,提高反爬虫的效果。
[0027]在一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页信息反爬虫方法,其特征在于,应用于服务器,所述方法包括:接收终端发送的信息获取请求;将待返回信息中预设的关键信息转换为图片数据;对所述图片数据进加密,得到加密图片数据;将所述待返回信息以及加密图片数据返回至所述终端。2.根据权利要求1所述的一种网页信息反爬虫方法,其特征在于,所述将待返回信息中预设的关键信息转换为图片数据,包括:根据待返回信息中预设的关键信息的长度,确定图片尺寸;根据所述图片尺寸,生成空白图片;将所述关键信息添加至所述空白图片,得到图片数据。3.根据权利要求1所述的一种网页信息反爬虫方法,其特征在于,所述对所述图片数据进加密,得到加密图片数据,包括:基于base64加密算法对所述图片数据进加密,得到加密图片数据。4.一种网页信息反爬虫方法,其特征在于,应用于终端,包括:向服务器发送信息获取请求;接收并直接展示服务器返回的待返回信息以及加密图片数据。5.一种网页信息反爬虫装置,其特征在于,包括:信息获取请求接收模块,用于接收终端发送的信息获取请求;关键信息转换模块,用于将待返回信息中预设的关键信息转换为图片数据;图片数据加密模块,用于对所述图片数据进加密,得到加密图片数据;以及,信息返回模块,用于将所述待返回信息以及加密图片数据返回至所述终端。6.根据权利要...

【专利技术属性】
技术研发人员:徐鸿举
申请(专利权)人:百鸟数据科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1