一种敏感数据接口爬虫识别方法及装置制造方法及图纸

技术编号:31507024 阅读:15 留言:0更新日期:2021-12-22 23:39
本发明专利技术公开了一种敏感数据接口爬虫识别方法及装置,所述方法包括:获取网站的web访问日志;根据web访问日志对爬虫进行识别;判断爬虫类型;按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储;提取存储的文本的特征数据,每个域名下的文本对应提取出重要链接地址、文本关键词结果;识别文本关键词结果中是否敏感信息,输出是否涉敏,涉敏数据类型;本发明专利技术的优点在于:对爬虫动机进行有效识别,识别出涉及敏感信息的爬虫行为,保障网络信息安全。障网络信息安全。障网络信息安全。

【技术实现步骤摘要】
一种敏感数据接口爬虫识别方法及装置


[0001]本专利技术涉及爬虫识别领域,更具体涉及一种敏感数据接口爬虫识别方法及装置。

技术介绍

[0002]现有技术中,可以通过网络爬虫等手段来获取网络中的数据,按照一定的规则,自动地抓紧去网站信息的程序或者脚本。现有技术大部分是针对爬虫的拦截,但爬虫还是可以通过改变程序或者模拟真实用户的行为进行绕过,尤其是网站的接口存在一定有价值的敏感信息。
[0003]现有技术爬虫识别方法可以大致归为两类,其中一类为专家规则引擎方案,通过对业务日志采集数据,并配置单个或多个属性的事件进行数量累加,通过阈值类规则对超过阈值的事件进行拦截;或通过属性、IP、useragent等属性采集的黑名单进行拦截。由于技术逐渐提升,黑产使用模拟器,特殊软件进行风控规则引擎试探并绕过,难以持续保证网站信息安全,尤其是网站的接口存在一定有价值的敏感信息的情况下,更加难以维持网站的信息安全。
[0004]另一类是基于用户行为序列的异常检测识别爬虫方案,通过构建用户访问行为路径,使用概率模型等技术方案计算行为路径概率,使用无监督学习方法输出异常的用户及相关用户的访问路径。但该技术方案存在大量的误报,人工二次分析的工作量更加大和复杂,导致难以维持存在敏感信息的网站接口的信息安全。
[0005]中国专利授权公告号CN108712426B,公开了一种基于用户行为埋点的爬虫识别方法及系统,其中方法包括:S1、客户端接收用户发起的访问请求,并将访问请求向后端服务系统异步发送;S2、后端服务系统在接收到访问请求后,同步用户的访问日志,访问日志包括用户的访问行为数据;S3、后端服务系统通过规则引擎聚合访问行为数据;S4、后端服务系统根据聚合后的访问行为数据判断用户是否属于爬虫,若是则根据访问日志聚合出用于标识用户为爬虫的爬虫特征数据,然后将爬虫特征数据通过消息队列异步推送至所述客户端中的爬虫列表;S5、客户端根据爬虫列表响应访问请求。该专利技术通过同步访问日志,并聚合日志中的访问行为数据后识别爬虫,提高爬虫识别率和准确。但是并不是所有的爬虫都需要拦截,该方案只是对爬虫进行识别,并不能识别具有敏感数据的爬虫。
[0006]综上所述,现有技术大部分是针对爬虫的拦截,不能识别具有敏感数据的爬虫,从而导致难以保证网络信息安全。

技术实现思路

[0007]本专利技术所要解决的技术问题在于现有技术缺乏对具有敏感信息的接口进行爬虫识别的方法。
[0008]本专利技术通过以下技术手段实现解决上述技术问题的:一种敏感数据接口爬虫识别方法,所述方法包括以下步骤:
[0009]步骤一:获取网站的web访问日志;
[0010]步骤二:根据web访问日志对爬虫进行识别;
[0011]步骤三:判断爬虫类型;
[0012]步骤四:按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储;
[0013]步骤五:提取存储的文本的特征数据,每个域名下的文本对应提取出重要链接地址、文本关键词结果;
[0014]步骤六:使用敏感数据发现技术识别文本关键词结果中是否存在敏感信息,并输出对应的结果。
[0015]本专利技术按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储,使用敏感数据发现技术识别文本关键词结果中是否敏感信息,输出是否涉敏,涉敏数据类型,从而对爬虫动机进行有效识别,识别出涉及敏感信息的爬虫行为,保障网络信息安全。
[0016]进一步地,所述web访问日志包括请求的时间、IP地址、用户身份信息、sessionid、requestbody、responbody、method、status,用户身份信息包括账号、cookie、uuid。
[0017]进一步地,所述步骤二中采用基于用户行为序列的异常检测方法或者规则引擎方法识别爬虫。
[0018]进一步地,所述步骤三中爬虫类型包括修改url中的参数进行页面切换或者相同url通过修改POST内容请求传不同参数进行页面切换。
[0019]更进一步地,所述步骤四包括:
[0020]步骤401:按照不同的爬虫类型使用爬虫的参数向网站发起Request请求,请求中包含额外的headers信息,从而进行爬虫请求模拟;
[0021]步骤402:对爬虫访问的网站进行页面解析,获取网站页面返回的信息,得到请求响应的内容;
[0022]步骤403:按照请求url归集请求响应的内容,如果是通过修改url中的参数进行页面切换模式的爬虫地址,则保留爬虫地址的非参数部分,作为归集域名,如果通过修改POST内容请求传不同参数进行页面切换模式的爬虫地址,直接使用爬虫地址的域名作为归集域名;将网站返回的多个文本部分按照归集域名分组进行存储。
[0023]进一步地,所述步骤五包括:
[0024]通过公式
[0025][0026]计算词语频率,提取存储的文本中词语频率超过阈值的词语作为特征数据,每个域名下的文本按照词语频率对应提取出重要链接地址、文本关键词结果;其中,n
i,j
表示词语t
i
在文本j中出现的次数,表示文本j中所有词语频词和,表示语料库中所有词语频数之和,nt
i
表示词语t
i
在语料库中出现的总频数。
[0027]进一步地,所述敏感信息包括手机号码、姓名、地址、车牌号、身份证号码。
[0028]进一步地,所述敏感数据接口爬虫识别方法还包括步骤七:
[0029]对步骤六识别出的具有敏感数据接口的爬虫统计url归集请求数量、访问速率、请求IP地址个数、IP访问url数量、请求useragent个数、返回200数量、访问Referer数量、访问Method类型、url涉敏感数据类型,根据统计结果输出爬虫风险等级以及攻击类型。
[0030]本专利技术还提供一种敏感数据接口爬虫识别装置,所述装置包括:
[0031]日志获取模块,用于获取网站的web访问日志;
[0032]爬虫识别模块,用于根据web访问日志对爬虫进行识别;
[0033]判断模块,用于判断爬虫类型;
[0034]爬虫请求模拟模块,用于按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储;
[0035]特征提取模块,用于提取存储的文本的特征数据,每个域名下的文本对应提取出重要链接地址、文本关键词结果;
[0036]涉敏判断模块,用于使用敏感数据发现技术识别文本关键词结果中是否存在敏感信息,并输出对应的结果。
[0037]进一步地,所述web访问日志包括请求的时间、IP地址、用户身份信息、sessioni本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感数据接口爬虫识别方法,其特征在于,所述方法包括以下步骤:步骤一:获取网站的web访问日志;步骤二:根据web访问日志对爬虫进行识别;步骤三:判断爬虫类型;步骤四:按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容,并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储;步骤五:提取存储的文本的特征数据,每个域名下的文本对应提取出重要链接地址、文本关键词结果;步骤六:使用敏感数据发现技术识别文本关键词结果中是否存在敏感信息,并输出对应的结果。2.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述web访问日志包括请求的时间、IP地址、用户身份信息、sessionid、requestbody、responbody、method、status,用户身份信息包括账号、cookie、uuid。3.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述步骤二中采用基于用户行为序列的异常检测方法或者规则引擎方法识别爬虫。4.根据权利要求1所述的一种敏感数据接口爬虫识别方法,其特征在于,所述步骤三中爬虫类型包括修改url中的参数进行页面切换或者相同url通过修改POST内容请求传不同参数进行页面切换。5.根据权利要求4所述的一种敏感数据接口爬虫识别方法,其特征在于,所述步骤四包括:步骤401:按照不同的爬虫类型使用爬虫的参数向网站发起Request请求,请求中包含额外的headers信息,从而进行爬虫请求模拟;步骤402:对爬虫访问的网站进行页面解析,获取网站页面返回的信息,得到请求响应的内容;步骤403:按照请求url归集请求响应的内容,如果是通过修改url中的参数进行页面切换模式的爬虫地址,则保留爬虫地址的非参数部分,作为归集域名,如果通过修改POST内容请求传不同参数进行页面切换模式的爬虫地址,直接使用爬虫地址的域名作为归集域名;将网站返回的多个文本部分按照归集域名分组进行存储。6.根据权利要求1所述的一种敏感数据接口爬虫识别方...

【专利技术属性】
技术研发人员:葛胜利魏国富夏玉明
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1