一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质制造方法及图纸

技术编号:24756638 阅读:36 留言:0更新日期:2020-07-04 09:16
本说明书实施例公开了一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质,包括确定指向预设隐私数据的目标行为数据及目标行为数据对应的目标行为链路,从目标行为链路中确定第一爬虫链路,将第一爬虫链路作为第一类标记样本;确定第二爬虫链路,将第二爬虫链路作为第二类标记样本;其中,第二爬虫链路的确定方式异于第一爬虫链路;确定未标记网络行为链路,将未标记网络行为链路作为未标记类样本;基于第一类标记样本、第二类标记样本及未标记类样本进行半监督学习的模型训练,得到爬虫识别模型。将爬虫识别模型用于爬虫识别,能够提高爬虫识别准确率和对隐私数据的保护作用。

A crawler recognition model training, crawler recognition method, device, system, equipment and medium

【技术实现步骤摘要】
一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质
本说明书实施例涉及计算机领域,尤其涉及一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质。
技术介绍
现有技术中,可以通过网络爬虫等手段来获取网络中的数据,这也使得各种隐私数据存在泄漏风险,如何识别网络爬虫已是网络安全等领域的重要课题。有鉴于此,需要更有效和更高效的网络爬虫识别方案。
技术实现思路
本说明书实施例的主要目的在于提供一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质,以解决如何更有效和更高效地识别爬虫的技术问题。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供一种爬虫识别模型训练方法,包括:确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路,从所述目标行为链路中确定第一数量个第一爬虫链路,将所述第一数量个第一爬虫链路作为第一类标记样本;确定第二数量个第二爬虫链路,将所述第二数量个第二爬虫链路作为第二类标记样本;其中,所述第二爬虫链路的确定方式异于所述第一爬虫链路;确定第三数量个未标记网络行为链路,将所述第三数量个未标记网络行为链路作为未标记类样本;基于所述第一类标记样本、第二类标记样本以及未标记类样本进行半监督学习的模型训练,得到爬虫识别模型。本说明书实施例提供一种爬虫识别方法,包括:接收网络请求;通过爬虫识别模型对所述网络请求进行爬虫识别,确定爬虫识别结果,所述爬虫识别模型根据上述爬虫识别模型训练方法得到。本说明书实施例提供一种爬虫识别模型训练装置,包括:第一标记样本确定模块,用于确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路,从所述目标行为链路中确定第一数量个第一爬虫链路,将所述第一数量个第一爬虫链路作为第一类标记样本;第二标记样本确定模块,用于确定第二数量个第二爬虫链路,将所述第二数量个第二爬虫链路作为第二类标记样本;其中,所述第二爬虫链路的确定方式异于所述第一爬虫链路;未标记样本确定模块,用于确定第三数量个未标记网络行为链路,将所述第三数量个未标记网络行为链路作为未标记类样本;模型训练模块,用于基于所述第一类标记样本、第二类标记样本以及未标记类样本进行半监督学习的模型训练,得到爬虫识别模型。本说明书实施例提供一种爬虫识别系统,包括:请求接收模块,用于接收网络请求;爬虫识别模块,用于通过爬虫识别模型对所述网络请求进行爬虫识别,确定爬虫识别结果,所述爬虫识别模型根据上述爬虫识别模型训练方法得到。本说明书实施例提供一种网络请求处理系统,包括:业务前端、业务后台、人机校验前端和爬虫识别装置,所述爬虫识别装置如上所述;所述业务前端用于可以接收网络请求,以及将所述网络请求发送至所述业务后台;所述业务后台用于接收所述网络请求,并将所述网络请求发送至所述爬虫识别装置;所述爬虫识别装置用于接收以及识别业务后台发送的网络请求,确定爬虫识别结果以及与识别结果对应的反馈信息,并将反馈信息反馈至业务后台;所述业务后台根据反馈信息确定是否需要校验;若需要,则向所述人机校验前端发送校验指令;人机校验前端用于执行校验。本说明书实施例提供一种爬虫识别模型训练设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行上述的爬虫识别模型训练方法。本说明书实施例提供一种爬虫识别设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行上述的爬虫识别方法。本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述的爬虫识别模型训练方法。本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述的爬虫识别方法。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:确定第一爬虫链路所使用的网络行为数据既可以包括过往数据,又可以包括新出现数据,从而既能够涵盖过往的爬虫行为,又能够适应新的爬虫模式,丰富且时效性强;第二爬虫链路的确定方式不同于第一爬虫链路的确定方式,能够充分利用已知的爬虫信息。所使用的第一爬虫链路和第二爬虫链路兼顾了新爬虫与已知爬虫,以此来得到爬虫识别模型,能够提高爬虫识别模型和爬虫识别方法的爬虫识别准确率和对隐私数据的保护作用。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书第一个实施例中的爬虫识别模型训练方法的流程示意图。图2是本说明书第一个实施例的执行示意图。图3为本说明书第二个实施例中的爬虫识别方法的流程示意图。图4为本说明书的第一和/或第二个实施例的应用意图。图5是本说明书第四个实施例中的爬虫识别模型训练装置的结构示意图。图6是本说明书第五个实施例中的爬虫识别装置的结构示意图。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。现有技术中,可以通过网络爬虫等手段来获取网络中的数据,这也使得各种隐私数据存在泄漏风险,例如:目前有一些业务提供方(例如金融服务公司),在用户办理相关业务时,会要求用户填写个人信息,例如互联网账号和密码,然后业务提供方就可以登录用户账户并通过网络爬虫获取用户的数据,例如用户资产、消费、联系方式等数据,其中包括众多隐私数据。同样的,这些业务提供方也可以成为其他人的数据爬取对象。可见,对于隐私数据的掌握方来说,需要有效识别网络爬虫或网络爬虫的数据爬取行为,以保护其所掌握的隐私数据。现有的爬虫识别可分为两类:1)基于专家规则的爬虫识别:所谓的专家规则是指根据专业人员的经验,通过数据分析和挖掘得到的一系列的识别规则,例如满足某某条件执行某某操作等,包括但不限于基于无头浏览器特征、基于爬虫UA特征(UA为User-agent的缩写,即本文档来自技高网
...

【技术保护点】
1.一种爬虫识别模型训练方法,包括:/n确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路,从所述目标行为链路中确定第一数量个第一爬虫链路,将所述第一数量个第一爬虫链路作为第一类标记样本;/n确定第二数量个第二爬虫链路,将所述第二数量个第二爬虫链路作为第二类标记样本;其中,所述第二爬虫链路的确定方式异于所述第一爬虫链路;/n确定第三数量个未标记网络行为链路,将所述第三数量个未标记网络行为链路作为未标记类样本;/n基于所述第一类标记样本、第二类标记样本以及未标记类样本进行半监督学习的模型训练,得到爬虫识别模型。/n

【技术特征摘要】
1.一种爬虫识别模型训练方法,包括:
确定指向预设隐私数据的目标行为数据以及所述目标行为数据对应的目标行为链路,从所述目标行为链路中确定第一数量个第一爬虫链路,将所述第一数量个第一爬虫链路作为第一类标记样本;
确定第二数量个第二爬虫链路,将所述第二数量个第二爬虫链路作为第二类标记样本;其中,所述第二爬虫链路的确定方式异于所述第一爬虫链路;
确定第三数量个未标记网络行为链路,将所述第三数量个未标记网络行为链路作为未标记类样本;
基于所述第一类标记样本、第二类标记样本以及未标记类样本进行半监督学习的模型训练,得到爬虫识别模型。


2.如权利要求1所述的方法,确定目标行为数据对应的目标行为链路包括:
对所述目标行为数据进行分类;
对任一类目标行为数据,将该类中目标行为数据进行排序,根据排序结果确定该类目标行为数据对应的目标行为链路。


3.根据权利要求1所述的方法,从所述目标行为链路中确定第一爬虫链路包括:
将各个目标行为链路进行聚合,得到聚合结果;
将各个目标行为链路的聚合结果进行对比,将对比结果满足预设条件的目标行为链路作为第一爬虫链路。


4.根据权利要求3所述的方法,将各个目标行为链路进行聚合,得到聚合结果包括:
对任一目标行为链路,将该目标行为链路对应的目标行为数据进行排序;
将该目标行为链路排序后的目标行为数据进行拼接,将拼接结果作为该目标行为链路的聚合结果。


5.根据权利要求3所述的方法,所述预定条件为:
对任一目标行为链路,与该目标行为链路相似度大于相似度阈值的目标行为链路数量大于预定数量。


6.如权利要求1所述的方法,所述第三数量大于所述第一数量;
和/或,
所述第三数量大于所述第一数量。


7.一种爬虫识别方法,包括:
接收网络请求;
通过爬虫识别模型对所述网络请求进行爬虫识别,确定爬虫识别结果,所述爬虫识别模型根据权利要求1至6中任一项所述的方法得到。


8.根据权利要求7所述的识别方法,确定所述爬虫识别结果后,还包括:
确定与所述爬虫识别结果对应的反馈信息,所述反馈信息包括高危信息、中危信息和低危信息;
当所述反馈信息为高危信息时,拦截所述网络请求;
当所述反馈信息为中危信息时,对所述用户请求进行二次校验;
当所述反馈信息为低危信息时,放行所述网络请求。


9.根据权利要求8所述的识别方法,所述二次校验包括滑动验证和/或选字验证和/或计算结果验证;
若二次校验不通过,则拦截所述网络请求。


10.根据权利要求7所述的识别方法,确定所述爬虫识别结果后,还包括:
更新标记样本;
基于更新后的标记样本进行半监督学习的模型训练,得到更新后的爬虫识别模型。


11.根据权利要求10所述的识别方法,所述更新标记样本包括...

【专利技术属性】
技术研发人员:宗志远
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1