本申请提供了一种网页访问者身份识别方法,包括:当访问者对具有虚拟页面资源的必要页面提出访问请求时,存储访问者对必要页面的虚拟页面资源的访问信息;接收访问者对目标页面的访问请求;读取存储的所述访问者对必要页面中虚拟页面资源的访问信息;如果能够读取到所述访问信息,则访问者属于合法访问者,对访问者的访问请求给出反馈,反之,则访问者属于非法访问者,跳转到必要页面要求访问者对必要页面进行访问。本申请还提供一种实现前述方法的网页访问者身份识别系统。本申请的网页访问者身份识别方法及系统,能够识别出访问者身份,并且能够有效的防范非法访问者,且具有较好的隐蔽性,以避免被非法访问者检测到,提高系统的安全性。
【技术实现步骤摘要】
本专利技术涉及计算机网络安全
,特别是涉及一种网页访问者身份识别方法和系统。
技术介绍
随着网络技术的不断发展,搜索引擎得到了不断的完善,通过搜索引擎可以从互联网上获取各种信息。从搜索引擎技术发展而来的爬虫技术可以根据既定的抓取目标,有选择的访问网页与相关的链接,从而获取所需要的信息。随着爬虫技术的发展,爬虫类软件越来越多的被应用于生活中,使网站信息不断被抓取。目前,已经有爬虫类软件被用于非诚信的交易操作,影响系统的安全性。如秒杀器、下单器等常见的爬虫类软件,通过模拟浏览器请求提交参数到服务器端,把原本用户行 为的操作用程序机器行为替代,从而进行一些非诚信的交易操作。通常情况下,在进行某些操作时,用户需要首先访问某一必要页面,然后通过该必要页面到达目标页面,为了节省时间和提交效率,爬虫软件通常不会象浏览器那样请求所有页面资源,等待用户手动交互,而是将用户的行为直接事先拼凑好参数,用程序代替直接到浏览器的目标页面进行提交。为了防止爬虫软件等非法访问者跨过必要页面向目标页面进行提交,通常做法是在服务端对该必要页面的请求进行日志记录,在提交到目标页面时检测日志记录是否有必要页面的访问历史。但是,因为爬虫软件需要提交请求成功,会反复测试需要跟服务端交互的最少访问途径,如果是必要页面,一般都会被爬虫软件用程序访问获取日志记录,而这个过程中并不会对必要页面的页面资源提出访问所以,这种方法很容易就被爬虫软件检测至IJ,并不能有效的防范爬虫软件。如何防止爬虫类软件的非诚信的交易操作,提高系统的安全性,是本申请所要解决的技术问题。
技术实现思路
本申请所要解决的技术问题是提供一种网页访问者身份识别方法及系统,能够识别出访问者身份,例如,是合法的访问者,还是非法的访问者,并且能够有效的防范非法访问者,且具有较好的隐蔽性,以避免被非法访问者检测到,提高系统的安全性。为了解决上述问题,本申请公开了一种网页访问者身份识别方法,包括以下步骤当访问者对具有虚拟页面资源的必要页面提出访问请求时,存储访问者对必要页面的虚拟页面资源的访问信息;接收访问者对目标页面的访问请求;读取存储的所述访问者对必要页面中虚拟页面资源的访问信息;如果能够读取到所述访问者对必要页面中虚拟页面资源的访问信息,则访问者属于合法访问者,对访问者的访问请求给出反馈,反之,则访问者属于非法访问者,跳转到必要页面要求访问者对必要页面进行访问。进一步地,所述方法还包括所述访问者请求访问必要页面时,对所述虚拟页面资源的访问请求早于对所述必要页面中的点击按钮所对应的页面资源的访问请求。进一步地,所述方法还包括所述访问者请求访问必要页面时,首先提出对所述虚拟页面资源的访问请求。进一步地,所述方法还包括在当访问者对具有虚拟页面资源的必要页面提出访问请求时,存储访问者对必要页面的虚拟页面资源的访问信息之前增加如下步骤设置虚拟页面资源访问请求的响应程序。进一步地,所述虚拟页面资源的访问信息存储于session或分布式缓存中。 进一步地,所述虚拟页面资源为虚拟的javascript脚本,所述响应程序为Servlet。进一步地,所述虚拟页面资源为虚拟的图片或虚拟的样式定义资源文件。为了解决上述问题,本申请还公开了一种网页访问者身份识别系统,包括虚拟页面资源访问信息存储模块,用于存储访问者对具有虚拟页面资源的必要页面的虚拟页面资源的访问信息;请求接收模块,用于接收访问者的访问请求;访问信息读取模块,用于读取必要页面中虚拟页面资源的访问信息;和判断模块,根据是否有虚拟页面资源的访问信息来判断访问者的身份,若访问者属于合法访问者,则对访问者的访问请求给出反馈,若访问者属于非法访问者,则跳转到必要页面要求访问者对必要页面进行访问。进一步地,所述系统还包括响应模块,用于对虚拟页面资源的访问请求进行响应。与现有技术相比,本申请包括以下优点本申请的网页访问者身份识别方法和系统通过在必要页面增加虚拟页面资源,并根据是否有对该虚拟页面资源的访问信息来判断是合法的访问者还是非法的访问者,如爬虫软件在对目标页面提出访问请求。爬虫软件如果不对必要页面进行访问或者用程序对必要页面进行访问,那么就不会有虚拟页面资源的访问信息,从而就可以较容易的识别出爬虫软件。因为虚拟页面资源的访问请求并不能得到反馈,所以具有较好的隐蔽性,可以避免被爬虫软件检测到,从而能更好的防范爬虫软件。其次,虚拟页面资源的访问请求设置在必要页面中的点击按钮所对应的页面资源的访问请求之前,或者直接作为向必要页面提出的第一个访问请求,从而可以保证在点击按钮被加载前,虚拟页面资源的访问请求已经到达服务器,其访问信息已经被记录。另外,通过在服务器端设置虚拟页面资源的响应程序,对虚拟页面资源的访问请求进行单独响应,可以保证虚拟页面资源的访问路径的唯一性,从而保证识别的准确性。当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。附图说明图I是本申请的网页访问者身份识别方法实施例一的流程图;图2是本申请的网页访问者身份识别方法实施例二的流程图3是本申请的网页访问者身份识别方法实例的示意图;图4是本申请的网页访问者身份识别系统实施例一的结构示意图;图5是本申请的网页访问者身份识别系统实施例二的结构示意图。具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。参照图1,示出本申请的一种网页访问者身份识别方法实施例一,包括以下步骤步骤101,当访问者在具有虚拟页面资源的必要页面提出访问请求时,存储访问者对必要页面的虚拟页面资源的访问信息。 通常情况下,用户需要登录到某一个网站进行相应操作时,首先需要通过一个必要页面,输入个人信息再点击登录到目标页面,或者用户需要购买某网站上的某个物品时,需要从必要页面点击购买按钮再进入到目标页面,例如进行支付等。也就是说,用户需要访问目标页面,必须先经过必要页面,通过在必要页面设置虚拟页面资源来判断用户是否访问过必要页面。虚拟页面资源是指在必要页面中实际存在的页面资源的基础上附加的用于系统识别访问者身份的页面资源,并不是必要页面的原始组成资源。可以不显示在必要页面中,或者显示在必要页面中,但是不具有实际页面资源所具有的相关功能。用户在访问必要页面时,向必要页面实际存在的页面资源提出访问请求时也会向虚拟页面资源提出访问请求,服务器端在给出实际存在的页面资源的反馈的同时,可以给出虚拟页面资源的反馈,也可以不给出。无论是否给出反馈,都不会对用户造成任何影响,也就是说,虚拟页面资源相对于用户来说并没有意义。对于虚拟页面资源的访问请求,服务器端在接收后会进行存储。一般情况下,为了保证虚拟页面资源的隐蔽性,虚拟页面资源可以设置为不呈现在访问页面中的页面资源,如,虚拟的js脚本。即用户并不会知道有该页面资源的存在,但是,服务器端会接收到该虚拟页面资源的访问请求,同时记录该访问信息,但是不会对该访问请求给出反馈。虚拟页面资源也可以是透明的图片,服务器端可以对该访问请求给出反馈,但是用户并不知道该反馈,因为图片是透明的。这样可以避免对用户造成影响,同时可以避免被非法访问者,如爬虫软件识别破解,从而有效的防范爬虫软件。当然,虚拟页面资源也可以呈现在必要页面中本文档来自技高网...
【技术保护点】
一种网页访问者身份识别方法,其特征在于,包括以下步骤:当访问者对具有虚拟页面资源的必要页面提出访问请求时,存储访问者对必要页面的虚拟页面资源的访问信息;接收访问者对目标页面的访问请求;读取存储的所述访问者对必要页面中虚拟页面资源的访问信息;如果能够读取到所述访问者对必要页面中虚拟页面资源的访问信息,则访问者属于合法访问者,对访问者的访问请求给出反馈,反之,则访问者属于非法访问者,跳转到必要页面要求访问者对必要页面进行访问。
【技术特征摘要】
1.一种网页访问者身份识别方法,其特征在于,包括以下步骤 当访问者对具有虚拟页面资源的必要页面提出访问请求时,存储访问者对必要页面的虚拟页面资源的访问信息; 接收访问者对目标页面的访问请求;读取存储的所述访问者对必要页面中虚拟页面资源的访问信息; 如果能够读取到所述访问者对必要页面中虚拟页面资源的访问信息,则访问者属于合法访问者,对访问者的访问请求给出反馈,反之,则访问者属于非法访问者,跳转到必要页面要求访问者对必要页面进行访问。2.如权利要求I所述的方法,其特征在于,所述方法还包括 所述访问者请求访问必要页面时,对所述虚拟页面资源的访问请求早于对所述必要页面中的点击按钮所对应的页面资源的访问请求。3.如权利要求2所述的方法,其特征在于,所述方法还包括 所述访问者请求访问必要页面时,首先提出对所述虚拟页面资源的访问请求。4.如权利要求I所述的方法,其特征在于,所述方法还包括在当访问者对具有虚拟页面资源的必要页面提出访问请求时,存储访问者对必要页面的虚拟页面资源的访问信息之前增加如下步骤 设置虚拟...
【专利技术属性】
技术研发人员:彭渊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。