一种爬虫数据的识别方法、系统及设备技术方案

技术编号：24756636 阅读：49 留言：0更新日期：2020-07-04 09:16

本发明专利技术公开了一种爬虫数据的识别方法、系统及设备，其中，所述方法包括：获取目标网站的站点地图数据，并生成所述站点地图数据的向量图；获取所述目标网站的会话数据，并基于所述会话数据中包含的请求，将所述会话数据映射为所述向量图中的子图；为所述会话数据添加会话标签，所述会话标签用于表征所述会话数据是否为爬虫数据，并基于所述会话标签和所述子图对预设分类器进行训练，以得到用于区分爬虫数据和非爬虫数据的分类器。本申请提供的技术方案，能够有效地识别出爬虫数据。

A method, system and equipment for identifying crawler data

全部详细技术资料下载

【技术实现步骤摘要】
一种爬虫数据的识别方法、系统及设备
本专利技术涉及互联网
，特别涉及一种爬虫数据的识别方法、系统及设备。
技术介绍
随着互联网技术的不断发展，网络中的信息量也呈爆炸式增长。当前可以采用爬虫技术，自动获取网页内容，从而快速地从众多的信息中筛选出所需信息。在实际应用中，爬虫可以包括搜索引擎类的合法爬虫，还可能包含非法数据采集的恶意爬虫。为了避免服务器受到恶意爬虫的攻击，需要对访问数据进行甄别，从而筛选出爬虫数据后进行进一步的分析。目前，可以通过添加UserAgent黑名单、限制IP地址访问频率、识别设备指纹等方式来识别或者限制爬虫数据。然而，维护UserAgent黑名单和IP地址库需要花费巨大的精力，爬虫数据也可以通过代理IP地址或者修改UserAgent等方式来绕过这些检测方式，从而导致现有的爬虫数据的识别方法不太有效。
技术实现思路
本申请的目的在于提供一种爬虫数据的识别方法、系统及设备，能够有效地识别出爬虫数据。为实现上述目的，本申请一方面提供一种爬虫数据的识别方法，所述方法包括：...

【技术保护点】
1.一种爬虫数据的识别方法，其特征在于，所述方法包括：/n获取目标网站的站点地图数据，并生成所述站点地图数据的向量图；/n获取所述目标网站的会话数据，并基于所述会话数据中包含的请求，将所述会话数据映射为所述向量图中的子图；/n为所述会话数据添加会话标签，所述会话标签用于表征所述会话数据是否为爬虫数据，并基于所述会话标签和所述子图对预设分类器进行训练，以得到用于区分爬虫数据和非爬虫数据的分类器。/n

【技术特征摘要】
1.一种爬虫数据的识别方法，其特征在于，所述方法包括：
获取目标网站的站点地图数据，并生成所述站点地图数据的向量图；
获取所述目标网站的会话数据，并基于所述会话数据中包含的请求，将所述会话数据映射为所述向量图中的子图；
为所述会话数据添加会话标签，所述会话标签用于表征所述会话数据是否为爬虫数据，并基于所述会话标签和所述子图对预设分类器进行训练，以得到用于区分爬虫数据和非爬虫数据的分类器。

2.根据权利要求1所述的方法，其特征在于，生成所述站点地图数据的向量图包括：
识别所述站点地图数据中包含的各个访问链接，并基于各个所述访问链接之间的跳转关系，确定各个所述访问链接对应的节点位置；
将包含各个所述节点位置的图像作为所述站点地图数据的向量图。

3.根据权利要求1所述的方法，其特征在于，获取所述目标网站的会话数据包括：
读取所述目标网站的流量日志，并将所述流量日志中的访问数据按照会话进行分组，以得到一组或者多组会话数据。

4.根据权利要求1所述的方法，其特征在于，将所述会话数据映射为所述向量图中的子图包括：
识别所述会话数据中包含的请求，并在所述向量图中查询各个所述请求对应的节点位置；
根据各个所述请求的请求信息，生成与各个所述请求相匹配的请求节点，并将生成的所述请求节点填充于对应的节点位置处；
将各个所述请求按照访问时间进行排序，并根据排序结果，确定各个所述请求节点之间的连接关系，并将具备所述连接关系的各个所述请求节点构成的图像作为映射得到的子图。

5.根据权利要求4所述的方法，其特征在于，生成与各个所述请求相匹配的请求节点包括：
针对各个所述请求中的任一目标请求，统计所述目标请求对应的访问链接的访问频率，并确定所述访问频率对应的节点半径；
生成具备所述节点半径的请求节点，并将具备所述节点半径的请求节点作为与所述目标请求相匹配的请求节点。

6.根据权利要求4所述的方法，其特征在于，根据排序结果，确定各个所述请求节点之间的连接关系包括：
在各个所述请求节点中确定访问时间相邻的任意两个请求节点，若所述两个请求节点为不同的请求节点，在所述两个请求节点之间建立连线。

7.根据权利要求1所述的方法，其特征在于，基于所述会话标签和所述子图对预设分类器进行训练包括：
将所述子图输入所述预设分类器，并将所述预设分类器输出的分类结果与所述会话标签进行对比；
若所述分类结果与所述会话标签不一致，生成校正信息，并利用所述校正信息对所述预设分类器的内部参数进行调整，以使得再次...

【专利技术属性】
技术研发人员：陈志勇，王凤杰，赵志文，
申请(专利权)人：网宿科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人