一种确定网络爬虫的方法及服务器技术

技术编号:17779868 阅读:33 留言:0更新日期:2018-04-22 08:27
本发明专利技术实施例提供一种确定网络爬虫的方法及服务器,所述方法包括:获取用户终端发送的访问信息;根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签;若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。所述服务器执行上述方法。本发明专利技术实施例提供的确定网络爬虫的方法及服务器,使用户终端读取已更改的指定标签,并根据获取到的用户终端继续对指定的访问地址的访问次数,能够准确确定用户终端是否为网络爬虫,进而保护真实数据的安全。

【技术实现步骤摘要】
一种确定网络爬虫的方法及服务器
本专利技术实施例涉及网络数据安全
,具体涉及一种确定网络爬虫的方法及服务器。
技术介绍
当前互联网中充斥着各种各样的网络爬虫,无时无刻地盗取服务器中的数据。现有技术中,一种方法通过获取单位时间内网络爬虫的访问次数,对访问次数较多的疑似网络爬虫的访问权限进行限制;另一种方法通过某种算法来识别非浏览请求,进而通过限制非浏览请求的用户终端的访问权限,来保证数据不被非法获取。但是对于第一种方法:访问次数的阈值难以合理设定,有时会影响正常用户的访问,例如:在网络情况不好时,正常用户多次点击造成的单位时间内的多次访问。对于第二种方法:由于模拟浏览技术的发展,例如:selenium、phantomjs,也造成识别网络爬虫不够准确的问题。因此,如何避免上述方法的缺陷,并能够准确确定用户终端是否为网络爬虫,进而保护数据的安全,成为亟须解决的问题。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种确定网络爬虫的方法及服务器。第一方面,本专利技术实施例提供一种确定网络爬虫的方法,所述方法包括:获取用户终端发送的访问信息;根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签;若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。第二方面,本专利技术实施例提供一种确定网络爬虫的服务器,所述服务器包括:获取模块,用于获取用户终端发送的访问信息;分配模块,用于根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签;确定模块,用于若判断获知所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。第三方面,本专利技术实施例提供另一种确定网络爬虫的服务器,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取用户终端发送的访问信息;根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签;若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,包括:所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:获取用户终端发送的访问信息;根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签;若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。本专利技术实施例提供的确定网络爬虫的方法及服务器,使用户终端读取已更改的指定标签,并根据获取到的用户终端继续对指定的访问地址的访问次数,能够准确确定用户终端是否为网络爬虫,进而保护真实数据的安全。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例确定网络爬虫的方法流程示意图;图2为本专利技术实施例与黑名单、验证码识别等技术相结合的确定网络爬虫的方法总流程图;图3为本专利技术实施例确定网络爬虫的服务器结构示意图;图4为本专利技术实施例提供的服务器实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例确定网络爬虫的方法流程示意图,如图1所示,本专利技术实施例提供的一种确定网络爬虫的方法,包括以下步骤:S1:获取用户终端发送的访问信息。具体的,服务器获取用户终端发送的访问信息。访问信息可以是对服务器的访问信息,该访问信息可以包括用户名、IP、地区等用户的身份信息和位置信息。S2:根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签。具体的,服务器根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签。用户界面即UI,可以是显示给网络访问用户的显示界面。指定标签可以是CSS标签,可以将访问信息中的用户名、IP,地区等一个或多个输入预设模型,以获取模型输出参数。模型输出参数可以是对上述一个或多个用户名、IP,地区进行解析,并通过加密算法得到的具有较高安全性的标识信息,该标识信息可以为字母、数字等一种或多种、或字母与数字的组合。根据预先建立的模型输出参数与用户界面库中的用户界面标识之间的映射关系、以及所述模型输出参数,为所述用户终端分配目标用户界面。举例说明如下:将访问信息中的IP(可以是多个,以IP为例)输入预设模型,由于IP由数字组成,预设模型对IP进行解析、加密,可以得到较长的数字,可以选择该较长的数字中的末尾一位或多位作为标识信息(这里举例为末尾一位,数值为3),如果用户界面库中有10个用户界面,分别用UI0~UI9,预先建立的映射关系可以为标识信息0对应UI0、标识信息1对应UI1等等。参照上述举例标识信息为3对应的目标用户界面为UI3(目标用户界面)。还可以采用如下方式对预先建立的用户界面库进行维护:不定期的往用户界面库中增加和/或删除用户界面。S3:若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。具体的,服务器若判断获知所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。需要说明的是:由于正常用户(非网络爬虫)的访问不涉及对所有标签的访问(更不涉及CSS标签),因此更改后的指定标签对于正常用户(非网络爬虫)的访问没有影响,但是网络爬虫通过读取指定标签的方式获取隐私信息,如果指定标签被更改,,作为网络爬虫的用户终端将已更改的指定标签获取到本地进行解析处理,必然会导致解析错误,但是作为网络爬虫的用户终端不易快速察觉到解析错误是由于指定标签已被更改所引起的,在一定时段内还继续频繁地对该服务器的IP地址(对应指定的访问地址)进行访问。若在第一预设时段内访问次数大于第一预设次数门限值,确定所述用户终端为网络爬虫。第一预设时段和第一预设次数门限值可根据实际情况自主设置。即将在一定时段内频繁地访问该服务器的I本文档来自技高网...
一种确定网络爬虫的方法及服务器

【技术保护点】
一种确定网络爬虫的方法,其特征在于,包括:获取用户终端发送的访问信息;根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签;若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。

【技术特征摘要】
1.一种确定网络爬虫的方法,其特征在于,包括:获取用户终端发送的访问信息;根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,所述目标用户界面包括已更改的指定标签;若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫。2.根据权利要求1所述的方法,其特征在于,所述指定标签为CSS标签。3.根据权利要求1所述的方法,其特征在于,所述根据所述访问信息和第一预设规则,为所述用户终端分配目标用户界面,包括:将所述访问信息输入预设模型,以获取模型输出参数;根据预先建立的模型输出参数与用户界面库中的用户界面标识之间的映射关系、以及所述模型输出参数,为所述用户终端分配目标用户界面,其中,所述用户界面库包括预先更改的指定标签。4.根据权利要求1所述的方法,其特征在于,所述若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址,获取所述访问地址的访问次数,根据所述访问次数和第二预设规则,确定所述用户终端是否为网络爬虫,包括:若在第一预设时段内所述访问次数大于第一预设次数门限值,确定所述用户终端为网络爬虫。5.根据权利要求1所述的方法,其特征在于,所述访问信息包括有序的访问行为信息,相应地;所述方法还包括:若判断获知在第...

【专利技术属性】
技术研发人员:吴其杨刘豹孙振江丁伟
申请(专利权)人:厦门集微科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1