一种应用服务器的爬虫检测方法和识别网络模型技术

技术编号：28212852 阅读：15 留言：0更新日期：2021-04-24 14:51

本发明专利技术公开了一种应用服务器的爬虫检测方法，包括：根据相同的用户字段IpId和用户字段UserAgent进行分组，对任一分组对应的日志按时间先后顺序排列，以时间间隔T1进行划分，并生成对应的会话控制id；对任一会话控制id对应的日志按时间T2进行重采样，得到时序特征；采用滑动获取时序特征，并组成训练集和测试集的样本数据；对训练集的所述样本数据进行Z

全部详细技术资料下载

【技术实现步骤摘要】
一种应用服务器的爬虫检测方法和识别网络模型

[0001]本专利技术涉及网络
，尤其是一种应用服务器的爬虫检测方法和识别网络模型。

技术介绍

[0002]目前，现有技术中大部分的互联网应用采用前后端分离的方式提供用户服务，其中，前端系统展示用户界面，后端系统通过API的提供提供数据服务。对于公开应用，由于API暴露在互联网上，爬虫非常容易伪装成前端客户端，利用这些API绕开前端用户界面获取业务数据。因此，需要对现有技术中的爬虫进行检测，但是，现有技术中的爬虫识别方法通常有以下方式：
[0003](1)后端服务器判别客户端User
‑
Agent，Cookie，Session等特定特征来分类；该方式的缺点是这些特征非常容易伪造。
[0004](2)后端服务检查访问来源的API使用频率；这种方式也可以简单的使用分布式代理服务绕开。
[0005](3)使用复杂的前端代码和算法计算前端指纹，然后将指纹用指定算法加密，用于和后端服务通讯，后端解密指纹数据，用来确保API调用是由指定前端发出的；这种方式由于指纹采集算法和加密算法部署在前端，因此，也可以被逆向和模拟，另外这种方式需要前后端同时部署，增加了开发和部署难度。
[0006]因此，急需要提出一种逻辑简单、检测可靠的应用服务器的爬虫检测方法。

技术实现思路

[0007]针对上述问题，本专利技术的目的在于提供一种应用服务器的爬虫检测方法和识别网络模型，本专利技术采用的技术方案如下：
[0008]一种应...

【技术保护点】

【技术特征摘要】
1.一种应用服务器的爬虫检测方法，其特征在于，包括以下步骤：根据相同的用户字段IpId和用户字段UserAgent进行分组，对任一分组对应的日志按时间先后顺序排列，以时间间隔T1进行划分，并生成对应的会话控制id；对任一会话控制id对应的日志按时间T2进行重采样，得到时序特征；采用滑动获取时序特征，并组成训练集和测试集的样本数据；对训练集的所述样本数据进行Z
‑
Score标准化处理，得到n个二维特征数据；根据用户字段UserAgent对二维特征数据进行标签；构建LSTM的识别网络模型，将带标签的二维特征数据输入至LSTM的识别网络模型，并结合二分类交叉熵损失函数进行训练，得到训练后的网络模型；将测试集的样本数据输入至网络模型，以检测出爬虫和非爬虫。2.根据权利要求1所述的一种应用服务器的爬虫检测方法，其特征在于，所述训练集和测试集的占比为4:1。3.根据权利要求1所述的一种应用服务器的爬虫检测方法，其特征在于，所述LSTM的识别网络模型包括从前至后依次连接的输入层、LSTM网络层、四个卷积层、滤波器和输出层。4.根据权利要求3所述的一种应用服务器的爬虫检测方法，其特征在于，所述输入层的输入的时序窗口长度为30，且时序特征数量为22。5.根据权利要求3所述的一种应用服务器的爬虫检测方法，其特征在于，所述LSTM网络层的时序窗口长度为30，且时序特...

【专利技术属性】
技术研发人员：王勇科，杨亮，刘国宏，
申请(专利权)人：成都瑞小博科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人