一种网络爬虫识别方法、装置、系统及设备制造方法及图纸

技术编号:35031769 阅读:32 留言:0更新日期:2022-09-24 23:06
本申请实施例提供一种网络爬虫识别方法、装置、系统及设备,该方法中,区块链平台获取服务端上传的测试特征信息以及客户端上传的浏览器特征信息,其中,测试特征信息是用于区分人和机器的可区别因素在人为访问时的特征值,浏览器特征信息是该可区别因素的实际特征值,这样,区块链平台通过比对这两种特征信息,识别客户端的操作对象是否是网络爬虫。如此,能够有效地识别出网络爬虫,而且区块链技术可以防止数据被篡改,进一步提高了数据安全性。进一步提高了数据安全性。进一步提高了数据安全性。

【技术实现步骤摘要】
一种网络爬虫识别方法、装置、系统及设备


[0001]本申请涉及互联网
,具体而言,涉及一种网络爬虫识别方法、装置、系统及设备。

技术介绍

[0002]目前,随着网络技术的快速发展,网络上所承载的信息也越来越多。而为了抓取并利用网络上的各种信息,网络爬虫应运而生。然而,网络爬虫技术的滥用将导致大量的带宽资源被侵占、以及隐私信息或知识产权信息等被非法获取的危害。

技术实现思路

[0003]本申请实施例的目的在于提供一种网络爬虫识别方法、装置、系统及设备,旨在解决目前因网络爬虫技术的滥用导致网页数据的安全性较低的问题。
[0004]第一方面,本申请实施例提供了一种网络爬虫识别方法,应用于区块链平台,包括:获取服务端上传的测试特征信息,所述测试特征信息包括多种浏览器开启窗口访问时的公共特征参数,以及预设的验证参数;所述验证参数基于人为访问网站和自动化访问网站的区别来设置;获取客户端上传的浏览器特征信息,所述浏览器特征信息包括当前访问客户端网页的浏览器的实际特征参数和实际验证参数;比对所述测试特征信息和所述浏览器特征信息,以识别所述客户端的操作对象是否是网络爬虫。
[0005]在上述实现过程中,区块链平台获取服务端上传的测试特征信息以及客户端上传的浏览器特征信息,其中,测试特征信息是用于区分人和机器的可区别因素在人为访问时的特征值,浏览器特征信息是该可区别因素的实际特征值,这样,区块链平台通过比对这两种特征信息,识别客户端的操作对象是否是网络爬虫。如此,能够有效地识别出网络爬虫,而且区块链技术可以防止数据被篡改,进一步提高了数据安全性。
[0006]进一步地,在一些实施例中,所述预设的验证参数包括人为访问时的页面停留时间;所述实际验证参数包括当前访问客户端网页的浏览器的实际页面停留时间。
[0007]在上述实现过程中,利用页面停留时间作为比对的因素,以此判断正在客户端进行操作的操作对象是正常人还是网络爬虫,提高识别的准确性。
[0008]进一步地,在一些实施例中,所述测试特征信息还包括所述服务端所对应的IP号段以及域名。
[0009]在上述实现过程中,将服务端所对应的IP号段以及域名作为比对因素的一部分,可以加强完善后续区块链平台的验证比对。
[0010]进一步地,在一些实施例中,所述比对所述测试特征信息和所述浏览器特征信息,以识别所述客户端的当前操作对象是否是网络爬虫,包括:检测所述测试特征信息和所述浏览器特征信息之间的匹配程度,若所述匹配程度高于或等于预设值,确定所述客户端的当前操作对象不是网络爬虫,若所述匹配程度低于预设值,确定所述客户端的当前操作对象是网络爬虫。
[0011]在上述实现过程中,提供一种验证比对的具体实现手段。
[0012]进一步地,在一些实施例中,所述方法还包括:将比对结果传递给所述客户端,以使所述客户端根据所述比对结果来判定是否进行请求访问拦截。
[0013]在上述实现过程中,通过将比对结果传递给客户端,实现对网络爬虫访问的阻断。
[0014]进一步地,在一些实施例中,所述将所述比对结果传递给所述客户端,包括:将所述比对结果存放到目标区块中,以使所述客户端从所述目标区块中获取到所述比对结果。
[0015]在上述实现过程中,通过将比对结果存放到区块中,防止比对结果被篡改。
[0016]第二方面,本申请实施例提供了一种网络爬虫识别装置,应用于区块链平台,包括:第一获取模块,用于获取服务端上传的测试特征信息,所述测试特征信息包括多种浏览器开启窗口访问时的公共特征参数,以及预设的验证参数;所述验证参数基于人为访问网站和自动化访问网站的区别来设置;第二获取模块,用于获取客户端上传的浏览器特征信息,所述浏览器特征信息包括当前访问客户端网页的浏览器的实际特征参数和实际验证参数;验证比对模块,用于比对所述测试特征信息和所述浏览器特征信息,以识别所述客户端的操作对象是否是网络爬虫。
[0017]第三方面,本申请实施例提供了一种网络爬虫识别系统,包括区块链平台、服务端和客户端,其中:所述服务端用于:将测试特征信息上传至所述区块链平台,所述测试特征信息包括多种浏览器开启窗口访问时的公共特征参数,以及预设的验证参数;所述验证参数基于人为访问网站和自动化访问网站的区别来设置;所述客户端用于:将浏览器特征信息上传至所述区块链平台,所述浏览器特征信息包括当前访问客户端网页的浏览器的实际特征参数和实际验证参数;所述区块链平台用于:比对所述测试特征信息和所述浏览器特征信息,以识别所述客户端的操作对象是否是网络爬虫。
[0018]进一步地,在一些实施例中,所述区块链平台还用于:将比对结果传递给所述客户端;所述客户端还用于:根据所述比对结果来判定是否进行请求访问拦截。
[0019]第四方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0020]第五方面,本申请实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
[0021]第六方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
[0022]本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
[0023]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0024]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看
作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0025]图1为本申请实施例提供的一种网络爬虫识别方法的流程图;
[0026]图2为本申请实施例提供的一种网络爬虫识别系统的示意图;
[0027]图3为本申请实施例提供的一种网络爬虫识别装置的框图;
[0028]图4为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0030]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0031]如相关技术记载,目前,网络爬虫技术的滥用导致网页数据的安全性较。基于此,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫识别方法,其特征在于,应用于区块链平台,包括:获取服务端上传的测试特征信息,所述测试特征信息包括多种浏览器开启窗口访问时的公共特征参数,以及预设的验证参数;所述验证参数基于人为访问网站和自动化访问网站的区别来设置;获取客户端上传的浏览器特征信息,所述浏览器特征信息包括当前访问客户端网页的浏览器的实际特征参数和实际验证参数;比对所述测试特征信息和所述浏览器特征信息,以识别所述客户端的操作对象是否是网络爬虫。2.根据权利要求1所述的方法,其特征在于,所述预设的验证参数包括人为访问时的页面停留时间;所述实际验证参数包括当前访问客户端网页的浏览器的实际页面停留时间。3.根据权利要求1所述的方法,其特征在于,所述测试特征信息还包括所述服务端所对应的IP号段以及域名。4.根据权利要求1所述的方法,其特征在于,所述比对所述测试特征信息和所述浏览器特征信息,以识别所述客户端的当前操作对象是否是网络爬虫,包括:检测所述测试特征信息和所述浏览器特征信息之间的匹配程度,若所述匹配程度高于或等于预设值,确定所述客户端的当前操作对象不是网络爬虫,若所述匹配程度低于预设值,确定所述客户端的当前操作对象是网络爬虫。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将比对结果传递给所述客户端,以使所述客户端根据所述比对结果来判定是否进行请求访问拦截。6.根据权利要求5所述的方法,其特征在于,所述将所述比对结果传递给所述客户端,包括:将所述比对结果存放到目标区块中,以使所述客户端从所述目标区块中获取到所述比对结果。7....

【专利技术属性】
技术研发人员:易旺
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1