The invention discloses a recognition method and system of malicious cloud robot in the black production scene, which takes the original traffic as the object for analysis, compared with the web server access log, reduces the loss of the original information to the greatest extent, and retains the potential useful information; at the same time, the multi-layer traffic statistical feature extraction module can not only protect the user's privacy, but also extract the difference between the malicious cloud robot and the The implicit features of normal users can identify malicious cloud robots with high accuracy. The system can be directly deployed on the business server end of the enterprise to identify the malicious cloud robot IP, reduce economic losses; it can also help the relevant authorities to combat the crime of black industry.
【技术实现步骤摘要】
一种黑产场景下恶意云机器人的识别方法及系统
本专利技术涉及一种黑产场景下恶意云机器人的识别方法及系统,属于计算机软件
技术介绍
网络机器人检测是随着互联网的迅猛发展而产生的研究领域。通常,传统的网络机器人指通过Internet向Web服务器发送请求,以请求资源的自治系统。网络机器人根据其用途分为良性和恶意两大类。典型的良性网络机器人包括搜索引擎索引器和用于从Internet获取、分析和归档信息的爬虫等。良性网络机器人使得海量信息的有效提取和利用变得十分便利。而恶意网络机器人往往通过抓取网站内容,帮助一些不法行为的实施。例如建立钓鱼网站、制造虚假下载量、生成垃圾邮件等。此外,在线游戏中的作弊机器人也很猖獗。为了识别这些恶意机器人,减少它们对于正常网络活动的影响,目前已有方法以Web服务器访问日志文件为研究对象,有针对性地研究了特定场景下网络机器人的准确检测。已有的网络机器人检测方法根据其原理可以分为四类:语法日志分析、流量模式分析、基于学习的技术和图灵测试系统。语法日志分析依赖于知识库中的先验知识如HTTP头部的user-agent域、IP地址等,通过和Web服务器访问日志中的内容进行匹配,推断该条日志是否为机器人产生。该方法严重依赖知识库,而知识库往往只能涵盖部分情况,还需要对其进行不断的更新和维护。另外,HTTP头部字段内容是可以伪造的。这导致语法日志分析方法虽然原理简单、易操作,但是准确率和召回率低。流量模式分析方法是对日志进行深度分析,寻找机器人流量不同于正常人类用户流量的流量模式。和语法日志 ...
【技术保护点】
1.一种黑产场景下恶意云机器人的识别方法,包括以下步骤:/n(1)在服务器端实时收集客户端发来的待测流量;/n(2)对待测流量进行样本提取,并进一步提取样本中与恶意云机器人识别模型相对应的特征向量;/n(3)将上述待测流量的特征向量作为输入,通过该恶意云机器人识别模型进行识别;/n其中,所述恶意云机器人识别模型通过下述方法构建:/n在服务器端实时收集客户端发来的流量,存储并提取样本,使用恶意云机器人数据库对样本数据进行标注,若初始样本的客户端IP包含在该数据库中,则将该初始样本标记为恶意云机器人样本;反之,则标记为人类用户样本;/n对样本流量数据进行多层流量统计特征的提取,得到特征向量;/n基于机器学习方法,利用特征向量训练多种分类器,选取具有最优效果的分类器,得到恶意云机器人识别模型。/n
【技术特征摘要】
1.一种黑产场景下恶意云机器人的识别方法,包括以下步骤:
(1)在服务器端实时收集客户端发来的待测流量;
(2)对待测流量进行样本提取,并进一步提取样本中与恶意云机器人识别模型相对应的特征向量;
(3)将上述待测流量的特征向量作为输入,通过该恶意云机器人识别模型进行识别;
其中,所述恶意云机器人识别模型通过下述方法构建:
在服务器端实时收集客户端发来的流量,存储并提取样本,使用恶意云机器人数据库对样本数据进行标注,若初始样本的客户端IP包含在该数据库中,则将该初始样本标记为恶意云机器人样本;反之,则标记为人类用户样本;
对样本流量数据进行多层流量统计特征的提取,得到特征向量;
基于机器学习方法,利用特征向量训练多种分类器,选取具有最优效果的分类器,得到恶意云机器人识别模型。
2.如权利要求1所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,待测流量样本的提取方法为:将流量按照客户端IP-时间段进行汇聚,每个客户端在一定时间段内的流集合作为一个初始样本。
3.如权利要求2所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述流集合指具有相同五元组的包序列:{源IP,目的IP,源端口,目的端口,TCP}。
4.如权利要求2所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述一定时间段为1h。
5.如权利要求1所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述恶意云机器人数据库为互联网数据中心IP数据库。
6.如权利要求1所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述特征向量包括...
【专利技术属性】
技术研发人员:石俊峥,刘梦严,郭煜,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。