一种网络恶意爬虫识别方法、系统、终端及存储介质技术方案

技术编号:26171320 阅读:39 留言:0更新日期:2020-10-31 13:43
本申请所提供的一种网络恶意爬虫识别方法、系统、终端及存储介质,所述方法包括:获取待检测网络地址及待检测网络地址对应的用户访问信息;根据所述用户访问信息提取访问源地址及访问特征;以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别;从而实现相同行为的访问源地址会自动进行恶意爬虫识别。

【技术实现步骤摘要】
一种网络恶意爬虫识别方法、系统、终端及存储介质
本申请涉及数据处理
,尤其是涉及一种网络恶意爬虫识别方法、系统、终端及存储介质。
技术介绍
网络爬虫是一种自动获取网页内容的程序,对于一个网站而言,恶意爬虫的大量请求会消耗服务器的性能,浪费很多资源,甚至会造成服务器宕机。因此,有必要保证用户对网站进行正常的访问,而避免大规模的恶意爬虫向网站发起访问。现有的识别恶意爬虫的方法是通过解析网站的服务器记录日志,从日志中找出频繁访问该网站的网络地址,并通过人工判断的方式识别恶意爬虫后将该网络地址过滤掉,禁止该网络地址再次访问该网站。但是人工判断的方式进行恶意爬虫识别,样本数量巨大且耗费时间。因此,亟需一种网络恶意爬虫识别方法、系统、终端及存储介质,以解决网络恶意爬虫进行识别时人工判断方式样本数量巨大且耗费时间的问题。
技术实现思路
针对现有技术的不足,本申请提供一种网络恶意爬虫识别方法、系统、终端及存储介质,解决了现有技术中网络恶意爬虫进行识别时人工判断方式样本数量巨大且耗费时间的问题。>为解决上述技术问题本文档来自技高网...

【技术保护点】
1.一种网络恶意爬虫识别方法,其特征在于,包括:/n获取待检测网络地址及待检测网络地址对应的用户访问信息;/n根据所述用户访问信息提取访问源地址及访问特征;/n以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;/n通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;/n获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。/n

【技术特征摘要】
1.一种网络恶意爬虫识别方法,其特征在于,包括:
获取待检测网络地址及待检测网络地址对应的用户访问信息;
根据所述用户访问信息提取访问源地址及访问特征;
以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;
通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;
获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。


2.根据权利要求1所述的网络恶意爬虫识别方法,其特征在于,所述获取待检测网络地址及待检测网络地址对应的用户访问信息,包括:
获取待检测网络地址的访问日志和流量;
解析所述访问日志和流量,获取解析结果;以及
从所述解析结果中获取所述待检测网络地址对应的用户访问信息。


3.根据权利要求1所述的网络恶意爬虫识别方法,其特征在于,所述根据所述用户访问信息提取访问源地址及访问特征,包括:
根据用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息的标识;
根据用户访问信息提取访问用户的访问特征如访问时间、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数。


4.根据权利要求1所述的网络恶意爬虫识别方法,其特征在于,所述以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别,包括:
根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征,并以访问源地址作为分组进行类别聚合;
将所述以访问源地址作为分组进行类别聚合的预设访问时间段内...

【专利技术属性】
技术研发人员:王广清方铁城申彦龙刘颖
申请(专利权)人:北京市燃气集团有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1