一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质制造方法及图纸

技术编号：24756638 阅读：66 留言：0更新日期：2020-07-04 09:16

本说明书实施例公开了一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质，包括确定指向预设隐私数据的目标行为数据及目标行为数据对应的目标行为链路，从目标行为链路中确定第一爬虫链路，将第一爬虫链路作为第一类标记样本；确定第二爬虫链路，将第二爬虫链路作为第二类标记样本；其中，第二爬虫链路的确定方式异于第一爬虫链路；确定未标记网络行为链路，将未标记网络行为链路作为未标记类样本；基于第一类标记样本、第二类标记样本及未标记类样本进行半监督学习的模型训练，得到爬虫识别模型。将爬虫识别模型用于爬虫识别，能够提高爬虫识别准确率和对隐私数据的保护作用。

A crawler recognition model training, crawler recognition method, device, system, equipment and medium

全部详细技术资料下载

【技术实现步骤摘要】
一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质
本说明书实施例涉及计算机领域，尤其涉及一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质。
技术介绍
现有技术中，可以通过网络爬虫等手段来获取网络中的数据，这也使得各种隐私数据存在泄漏风险，如何识别网络爬虫已是网络安全等领域的重要课题。有鉴于此，需要更有效和更高效的网络爬虫识别方案。
技术实现思路
本说明书实施例的主要目的在于提供一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质，以解决如何更有效和更高效地识别爬虫的技术问题。为解决上述技术问题，本说明书实施例是这样实现的：本说明书实施例提供一种爬虫识别模型训练方法，包括：确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路，从所述目标行为链路中确定第一数量个第一爬虫链路，将所述第一数量个第一爬虫链路作为第一类标记样本；确定第二数量个第二爬虫链路，将所述第二数量个第二爬虫链路作为第二类标记样本；其中，所述第二爬虫链路的确定方式异于...

【技术保护点】
1.一种爬虫识别模型训练方法，包括：/n确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路，从所述目标行为链路中确定第一数量个第一爬虫链路，将所述第一数量个第一爬虫链路作为第一类标记样本；/n确定第二数量个第二爬虫链路，将所述第二数量个第二爬虫链路作为第二类标记样本；其中，所述第二爬虫链路的确定方式异于所述第一爬虫链路；/n确定第三数量个未标记网络行为链路，将所述第三数量个未标记网络行为链路作为未标记类样本；/n基于所述第一类标记样本、第二类标记样本以及未标记类样本进行半监督学习的模型训练，得到爬虫识别模型。/n

【技术特征摘要】
1.一种爬虫识别模型训练方法，包括：
确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路，从所述目标行为链路中确定第一数量个第一爬虫链路，将所述第一数量个第一爬虫链路作为第一类标记样本；
确定第二数量个第二爬虫链路，将所述第二数量个第二爬虫链路作为第二类标记样本；其中，所述第二爬虫链路的确定方式异于所述第一爬虫链路；
确定第三数量个未标记网络行为链路，将所述第三数量个未标记网络行为链路作为未标记类样本；
基于所述第一类标记样本、第二类标记样本以及未标记类样本进行半监督学习的模型训练，得到爬虫识别模型。

2.如权利要求1所述的方法，确定目标行为数据对应的目标行为链路包括：
对所述目标行为数据进行分类；
对任一类目标行为数据，将该类中目标行为数据进行排序，根据排序结果确定该类目标行为数据对应的目标行为链路。

3.根据权利要求1所述的方法，从所述目标行为链路中确定第一爬虫链路包括：
将各个目标行为链路进行聚合，得到聚合结果；
将各个目标行为链路的聚合结果进行对比，将对比结果满足预设条件的目标行为链路作为第一爬虫链路。

4.根据权利要求3所述的方法，将各个目标行为链路进行聚合，得到聚合结果包括：
对任一目标行为链路，将该目标行为链路对应的目标行为数据进行排序；
将该目标行为链路排序后的目标行为数据进行拼接，将拼接结果作为该目标行为链路的聚合结果。

5.根据权利要求3所述的方法，所述预定条件为：
对任一目标行为链路，与该目标行为链路相似度大于相似度阈值的目标行为链路数量大于预定数量。

6.如权利要求1所述的方法，所述第三数量大于所述第一数量；
和/或，
所述第三数量大于所述第一数量。

7.一种爬虫识别方法，包括：
接收网络请求；
通过爬虫识别模型对所述网络请求进行爬虫识别，确定爬虫识别结果，所述爬虫识别模型根据权利要求1至6中任一项所述的方法得到。

8.根据权利要求7所述的识别方法，确定所述爬虫识别结果后，还包括：
确定与所述爬虫识别结果对应的反馈信息，所述反馈信息包括高危信息、中危信息和低危信息；
当所述反馈信息为高危信息时，拦截所述网络请求；
当所述反馈信息为中危信息时，对所述用户请求进行二次校验；
当所述反馈信息为低危信息时，放行所述网络请求。

9.根据权利要求8所述的识别方法，所述二次校验包括滑动验证和/或选字验证和/或计算结果验证；
若二次校验不通过，则拦截所述网络请求。

10.根据权利要求7所述的识别方法，确定所述爬虫识别结果后，还包括：
更新标记样本；
基于更新后的标记样本进行半监督学习的模型训练，得到更新后的爬虫识别模型。

11.根据权利要求10所述的识别方法，所述更新标记样本包括...

【专利技术属性】
技术研发人员：宗志远，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人