一种爬虫识别方法及其装置制造方法及图纸

技术编号：32022032 阅读：28 留言：0更新日期：2022-01-22 18:42

一种爬虫识别方法,包括如下步骤：步骤1，拉取线上访问者访问数据并存储；步骤2，识别所述访问数据并对该访问数据根据描述所述访问行为的参数值进行赋值并存储；步骤3，对赋值进行累计计算并比较累计计算的结果与阈值，当所述累计计算结果超出所述阈值时，则认定该访问者为爬虫用户。者为爬虫用户。者为爬虫用户。

全部详细技术资料下载

【技术实现步骤摘要】
一种爬虫识别方法及其装置

[0001]本专利技术涉及网络安全领域，特别涉及爬虫识别方法，还涉及爬虫识别装置。

技术介绍

[0002]以往的反爬虫技术，往往是通过分析web或app系统中的用户的访问频率或访问时间段来识别用户是否是爬虫，如果频率过高或者时间段在非正常时间段内，则认为该用户为疑似爬虫。这种模型对爬虫的识别度不够准确，容易出现漏报、错报的情况。对爬虫的识别精度不够高，容易产生漏报和误报。
[0003]针对爬虫的爬取目的和爬取手段这两个方面，申请人增加了更多的爬虫识别维度，从而更加准确的识别和封堵爬虫。

技术实现思路

[0004]针对上述问题及现有方案的缺点，本专利提出一种多维度识别爬虫的反爬模型。该方法基于以下假设：
[0005]1.爬虫爬取的目的是为了获取有价值商业信息，比如商品信息、价格。
[0006]2.爬虫爬取的手段一般是使用脚本自动爬取，与真人访问存在一定的差别。
[0007]3.爬虫为了防止被识别出，往往会通过使用多IP地址来伪装。
[0008]本...

【技术保护点】

【技术特征摘要】
1.一种爬虫识别方法,包括如下步骤：步骤1，拉取线上访问者访问数据并存储；步骤2，识别所述访问数据并对该访问数据根据描述所述访问行为的参数值进行赋值并存储；步骤3，对赋值进行累计计算并比较累计计算的结果与阈值，当所述累计计算结果超出所述阈值时，则认定该访问者为爬虫用户。2.根据权利要求1所述的爬虫识别方法，其特征在于，在所述步骤2中，包括步骤200，设定1分值对应的参数值、起始设定值，并计算第一差值，该第一差值等于所述1分值对应的参数值与所述起始设定值之差；步骤201，计算第二差值，该第二差值等于所采集到的访问数据参数值与起始设定值之差；步骤202，计算第二差值与第一差值之比，所述比值即为相应访问数据的累计结果。3.根据权利要求2所述的爬虫识别方法，其特征在于，所述描述所述访问行为的参数选自以下之一或者全部：请求次数、请求SKU页面的次数、请求SKU页面的比率、请求htm页面的比率、GET请求比率和一账号多IP。4.根据权利要求4所述的爬虫识别方法，其特征在于，所述步骤1中的拉取频次包括实时和按天。5.根据权利要求1所述的爬虫识别方法...

【专利技术属性】
技术研发人员：周宝鑫，吴海波，李晓阳，
申请(专利权)人：北京小药药人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人