爬虫识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号：20944459 阅读：50 留言：0更新日期：2019-04-24 02:23

本发明专利技术公开了一种爬虫识别方法、装置、设备及可读存储介质，应用爬虫识别方法的服务器端设置有识别代码，该识别代码对应的识别显示内容在所述服务器端对应页面上处于隐藏显示状态；所述爬虫识别方法包括：每接收到用户端向服务器端发送的用于请求网络信息的请求指令时；判断所述请求指令是否是请求包含所述识别显示内容的网络信息的请求指令；若所述请求指令是请求包含所述识别显示内容的网络信息的请求指令，确定所述请求指令对应用户端存在爬虫所述服务器端的爬虫风险。本发明专利技术解决现有存在爬虫端的识别难度大，爬虫限制的难度大的技术问题。

Crawler Recognition Method, Device, Equipment and Readable Storage Media

The invention discloses a crawler identification method, device, device and readable storage medium. The server side applying the crawler identification method is provided with an identification code, and the identification display content corresponding to the identification code is in a hidden display state on the corresponding pages of the server side. The crawler identification method includes: a request network sent to the server side by each receiving client side is used for the request network. When requesting instructions for information, it is determined whether the requesting instructions are requesting instructions for network information containing the identifying display content; if the requesting instructions are requesting instructions for network information containing the identifying display content, it is determined that the requesting instructions correspond to the risk of crawling on the server side of the crawler. The invention solves the technical problems that the identification of the existing crawler end is difficult and the crawler limit is difficult.

全部详细技术资料下载

【技术实现步骤摘要】
爬虫识别方法、装置、设备及可读存储介质
本专利技术涉及计算机
，尤其涉及一种爬虫识别方法、装置、设备及可读存储介质。
技术介绍
爬虫指的是网络爬虫(又被称为网页蜘蛛，网络机器人等)，是一种按照一定的规则，自动地抓取互联网上网络信息的程序或者脚本。爬虫在抓取一个网页后，若这个网页中具有指向各个其它网页的超链接，那么就可以爬到另一张网上来获取其它数据。爬虫过程中获取网络数据的方式可以是：方式一：爬虫端提交网路信息请求-下载网页代码-解析成页面，方式二：爬虫端模拟浏览器发送请求-提取有用的数据-存放于数据库或文件中，目前，许多网站都需要限制爬虫公司的爬虫，以避免网站信息的全面泄漏，但是现有技术中存在爬虫端的识别难度大，造成爬虫限制的难度大，网站信息容易全面泄漏的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种爬虫识别方法、装置、设备及可读存储介质，旨在解决存在爬虫端的识别难度大，爬虫限制的难度大的技术问题。为实现上述目的，本专利技术提供一种爬虫识别方法，应用爬虫识别方法的服务器端设置有识别代码，该识别代码对应的识别显示内容在所述服务器端对应页面上处于隐藏显示...

【技术保护点】
1.一种爬虫识别方法，其特征在于，应用爬虫识别方法的服务器端设置有识别代码，该识别代码对应的识别显示内容在所述服务器端对应页面上处于隐藏显示状态；所述爬虫识别方法包括：每接收到用户端向服务器端发送的用于请求网络信息的请求指令时,判断所述请求指令是否是请求包含所述识别显示内容的网络信息的请求指令；若所述请求指令是请求包含所述识别显示内容的网络信息的请求指令，确定所述请求指令对应用户端存在爬虫所述服务器端的爬虫风险，并将发送所述请求指令的用户端列入所述服务器的黑名单列表中。

【技术特征摘要】
1.一种爬虫识别方法，其特征在于，应用爬虫识别方法的服务器端设置有识别代码，该识别代码对应的识别显示内容在所述服务器端对应页面上处于隐藏显示状态；所述爬虫识别方法包括：每接收到用户端向服务器端发送的用于请求网络信息的请求指令时,判断所述请求指令是否是请求包含所述识别显示内容的网络信息的请求指令；若所述请求指令是请求包含所述识别显示内容的网络信息的请求指令，确定所述请求指令对应用户端存在爬虫所述服务器端的爬虫风险，并将发送所述请求指令的用户端列入所述服务器的黑名单列表中。2.如权利要求1所述的爬虫识别方法，其特征在于，所述将发送所述请求指令的用户端列入所述服务器的黑名单列表中，包括：获取所述请求指令对应的用户端的唯一标识码信息，该唯一标识码信息包括所述用户端的电子序列号ESN；将所述用户端的电子序列号ESN列入至所述服务器端的黑名单列表中。3.如权利要求1-2任一项所述的爬虫识别方法，其特征在于，所述请求指令中携带用户信息，所述用户信息包括IP信息，协议栈信息、用户代理UA信息；所述判断所述请求指令是否是请求包含所述识别显示内容的网络信息的请求指令步骤之后，所述方法还包括：若所述请求指令不是请求包含所述识别显示内容的网络信息的请求指令，则基于所述请求指令对应的用户信息，更新当前时间点过去预设时间段内所述服务器端采集的IP信息的第一聚集比例，更新所述过去预设时间段内所述服务器端采集的协议栈信息的第二聚集比例，并更新所述过去预设时间段内所述服务器端采集的用户代理UA信息的第三聚集比例；若所述第一聚集比例大于第一预设值、第二聚集比例大于第二预设值且第三聚集比例大于第三预设值时，确定所述服务器端存在被爬虫的风险。4.如权利要求3所述的爬虫识别方法，其特征在于，所述基于所述请求指令对应用户信息，更新当前时间点过去预设时间段内所述服务器端采集的IP信息的第一聚集比例步骤包括：基于所述请求指令对应用户信息，获取所述当前时间点过去预设时间段内所述服务器端所采集的各个用户端的IP段；对所述各个用户端的IP段进行有序排列，获取连续IP段在所述各个用户端的IP段中所占的第一占比；将所述第一占比设为所述过去预设时间段内所述服务器端对应采集IP信息的第一聚集比例。5.如权利要求3所述的爬虫识别方法，其特征在于，所述更新所述过去预设时间段内所述服务器端采集的协议栈信息的第二聚集比例步骤包括：获取所述过去预设时间段内所述服务器端依次接收不同请求指令对应的各个接收时间间隔；判断所述各个接收时间间隔是否是部分规律变化的，若所述各个接收时间间隔是部分规律变化的，则获取规律变化的时间间隔对应占比所述所有各个...

【专利技术属性】
技术研发人员：舒文捷，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人