一种防止网络爬虫窃取隐私数据的方法、训练方法及装置制造方法及图纸

技术编号:24040998 阅读:47 留言:0更新日期:2020-05-07 03:24
本说明书实施例提供一种防止网络爬虫窃取隐私数据的方法、训练方法及装置。防止网络爬虫窃取隐私数据的方法包括:从目标客户端的网络流量数据中提取目标客户端在预设时间段内的应用程序接口API访问记录。基于目标客户端的API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的目标客户端在预设时间段内的API访问二维图。将待识别数据输入至网络爬虫识别模型,以得到所目标客户端的网络识别结果,其中,网络爬虫识别模型是基于样本数据和样本数据的网络爬虫分类标签训练得到的,样本数据包括以时间和API访问量为维度的样本用户在预设时间段内的API访问二维图。对目标客户端执行与网络爬虫识别结果相匹配的隐私数据保护措施。

A method, training method and device to prevent crawlers from stealing privacy data

【技术实现步骤摘要】
一种防止网络爬虫窃取隐私数据的方法、训练方法及装置
本文件涉及数据安全
,尤其涉及一种防止网络爬虫窃取隐私数据的方法、训练方法及装置。
技术介绍
互联网公司在向用户提供服务的同时,也为信息爬取提供了机会。网络爬虫只需要编写好自动化脚本,并在用户有意识或无意识授权下,即可在各个互联网公司中过度采集用户的隐私数据。这些用户个人的敏感信息被存储在爬取公司,很容易导致大规模的数据泄露发生。为此,当前迫切需要一种能够自动识别网络爬虫,并防止网络爬虫窃取隐私数据的技术方案。
技术实现思路
本说明书实施例目的是提供一种方法防止网络爬虫窃取隐私数据的方法、训练方法及装置、装置及电子设备,能够机械化识别网络爬虫,并防止网络爬虫窃取隐私数据。为了实现上述目的,本说明书实施例是这样实现的:第一方面,提供一种防止网络爬虫窃取隐私数据的方法,包括:从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成本文档来自技高网...

【技术保护点】
1.一种防止网络爬虫窃取隐私数据的方法,包括:/n从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;/n基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;/n将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;/n对所述目标客户...

【技术特征摘要】
1.一种防止网络爬虫窃取隐私数据的方法,包括:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。


2.根据权利要求1所述的方法,
对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施,包括:
若所述网络爬虫识别结果指示所述目标客户端属于网络爬虫,则将所述目标客户端添置黑名单以阻止进行API访问,或者,在每天指定时段阻止所述目标客户端进行API访问。


3.一种网络爬虫识别模型的训练方法,包括:
从样本客户端的网络流量数据中提取所述样本客户端在预设时间段内的应用程序接口API访问记录;
基于所述样本客户端在所述预设时间段内的应用程序接口API访问记录,生成样本数据,所述样本数据包括以时间和API访问量为维度的所述样本客户端在所述预设时间段内的API访问二维图;
基于所述样本数据和预先为所述样本数据标注的网络爬虫分类标志,对网络爬虫识别模型进行训练。


4.根据权利要求3所述的方法,
所述预设时间端为1天、12小时、1小时中的一者。


5.根据权利要求3所述的方法,
所述网络爬虫识别模型为卷积神经网络模型。


6.根据权利要求5所述的方法,
所述网络爬虫识别模型包括差量网络模型。


7.一种防止网络爬虫窃取隐私数据的装置,包括:
记录提取模块,从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
图像生成模块,基于所述目标客户端在所述预设时间段内的应用程序接口API访问记录,生成待识别数据,所述待识别数据包括以时间和API访问量为维度的所述目标客户端在所述预设时间段内的API访问二维图;
爬虫识别模块,将所述待识别数据输入至网络爬虫识别模型,以得到所述目标客户端的网络识别结果,其中,所述网络爬虫识别模型是基于样本数据和所述样本数据的网络爬虫分类标签训练得到的,所述样本数据包括以时间和API访问量为维度的所述样本用户在所述预设时间段内的API访问二维图;
数据保护模块,对所述目标客户端执行与所述网络爬虫识别结果相匹配的隐私数据保护措施。


8.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
从目标客户端的网络流量数据中提取所述目标客户端在预设时间段内的应用程序接口API访问记录;
基于所述目标客户端在所述预设时间段内的...

【专利技术属性】
技术研发人员:宗志远
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1