一种黑产场景下恶意云机器人的识别方法及系统技术方案

技术编号:22692072 阅读:40 留言:0更新日期:2019-11-30 05:23
本发明专利技术公开了一种黑产场景下恶意云机器人的识别方法及系统,以原始流量为对象进行分析,相比于Web服务器访问日志,最大程度上减少原始信息的损失,保留潜在的有用信息;同时,其多层流量统计特征提取模块既保护了用户隐私,又能提取恶意云机器人区别于正常用户的隐式特征,高准确率识别恶意云机器人。本发明专利技术主要针对薅羊毛、刷票等黑产场景,所述系统可以直接部署在企业的业务服务器端,识别恶意云机器人IP,减少经济损失;亦可帮助相关机关打击黑产犯罪。

A recognition method and system of malicious cloud robot in black production scene

The invention discloses a recognition method and system of malicious cloud robot in the black production scene, which takes the original traffic as the object for analysis, compared with the web server access log, reduces the loss of the original information to the greatest extent, and retains the potential useful information; at the same time, the multi-layer traffic statistical feature extraction module can not only protect the user's privacy, but also extract the difference between the malicious cloud robot and the The implicit features of normal users can identify malicious cloud robots with high accuracy. The system can be directly deployed on the business server end of the enterprise to identify the malicious cloud robot IP, reduce economic losses; it can also help the relevant authorities to combat the crime of black industry.

【技术实现步骤摘要】
一种黑产场景下恶意云机器人的识别方法及系统
本专利技术涉及一种黑产场景下恶意云机器人的识别方法及系统,属于计算机软件

技术介绍
网络机器人检测是随着互联网的迅猛发展而产生的研究领域。通常,传统的网络机器人指通过Internet向Web服务器发送请求,以请求资源的自治系统。网络机器人根据其用途分为良性和恶意两大类。典型的良性网络机器人包括搜索引擎索引器和用于从Internet获取、分析和归档信息的爬虫等。良性网络机器人使得海量信息的有效提取和利用变得十分便利。而恶意网络机器人往往通过抓取网站内容,帮助一些不法行为的实施。例如建立钓鱼网站、制造虚假下载量、生成垃圾邮件等。此外,在线游戏中的作弊机器人也很猖獗。为了识别这些恶意机器人,减少它们对于正常网络活动的影响,目前已有方法以Web服务器访问日志文件为研究对象,有针对性地研究了特定场景下网络机器人的准确检测。已有的网络机器人检测方法根据其原理可以分为四类:语法日志分析、流量模式分析、基于学习的技术和图灵测试系统。语法日志分析依赖于知识库中的先验知识如HTTP头部的user-agent域、IP地址等,通过和Web服务器访问日志中的内容进行匹配,推断该条日志是否为机器人产生。该方法严重依赖知识库,而知识库往往只能涵盖部分情况,还需要对其进行不断的更新和维护。另外,HTTP头部字段内容是可以伪造的。这导致语法日志分析方法虽然原理简单、易操作,但是准确率和召回率低。流量模式分析方法是对日志进行深度分析,寻找机器人流量不同于正常人类用户流量的流量模式。和语法日志分析的简单匹配不同,流量模式分析涉及对请求资源类型、请求量大小、引用位置、时间等不同维度的字段的统计和分析,勾勒出机器人流量所独有的流量特征和浏览模式。然后根据发现的模式,对后续访问日志进行分类。相比于语法日志分析方法,流量模式分析能更深入、更准确地发现网络机器人。但其模式的确定需要特征和其表征的现实意义对应起来,这使得一些隐式特征不能被充分挖掘。基于学习的技术很大程度上缓解了这个问题。基于学习的技术在流量模式分析的基础上,使用机器学习算法,学习机器人流量和正常用户流量的模式。这种模式是隐式的、更接近本质的。一个成功的模型理论上可以正确识别对应场景下所有的网络机器人。因此更难被机器人绕开。图灵测试系统和前三种方法不同,它需要用户参与图灵测试,以检测被测试的用户是否为机器人。这种方法是实时的,但其需要用户的交互,这在被动测量中是不能实现的,而且不利于用户体验的提升。固然针对网络机器人的检测已形成较为成熟的方法,但已有研究都是针对特定场景的网络机器人的。随着移动互联网、电子商务服务和Web2.0应用的快速发展,越来越多的交易和服务依赖网络进行。在这种情况下出现了一种危害极大的恶意网络机器人。它们使用的极其复杂的策略,利用应用程序的业务逻辑漏洞进行虚假点击、促销滥用、虚假账户批量注册以及其他类型的欺诈。由于这些恶意机器人与应用程序交互的方式与正常用户相同,并且它们会对流量进行篡改,例如使用伪装的user-agent字段,因此难以检测。这些恶意机器人已成为黑产中的重要一环,被用于薅羊毛、黄牛刷票等,使企业遭受巨大经济损失,同时正常用户的服务体验也受到严重影响。CAPTCHA测试虽然已经被用于识别恶意网络机器人,但不断升级的恶意机器人可以绕过多种CAPTCHA测试,而更复杂的CAPTCHA测试会使用户体验变差。如何有效、准确地检测这些恶意机器人的IP已经成为企业对抗黑产的关键。而目前还没有针对黑产场景下恶意机器人识别的有效方法。这类机器人策略复杂,对正常用户的模仿性极高,传统的网络机器人检测方法显然很难识别。需要研究一种新的方法,来识别该场景下的恶意网络机器人。已有数据表明,2017年互联网数据中心(IDC)产生的恶意机器人流量占82.7%,比2016年增长37%。云服务的高性能、低成本和易于自动化是恶意机器人使用IDC主机作为载体的主要原因。这样的恶意机器人被称为云机器人。有效检测云机器人可以大大缓解用于黑产的恶意机器人的识别问题。
技术实现思路
针对现有技术中存在的缺陷与不足,本专利技术提供了一种识别用于薅羊毛、刷票等黑产活动的恶意云机器人的方法与系统。本专利技术不依赖于Web服务器访问日志,而是对服务器端接收到的原始流量进行分析判别,识别客户端IP中的恶意云机器人IP。本专利技术提出一种恶意云机器人的样本提取和标注方法,为机器学习模型提供可靠的数据基础。本专利技术针对薅羊毛、刷票类的黑产场景,实现了一种恶意云机器人识别原型系统,其多层流量统计特征提取模块既保护了用户隐私,又能提取恶意云机器人区别于正常用户的隐式特征,高准确率识别恶意云机器人。该系统还包含了模型反馈迭代模块,可以对机器学习模型进行调整,以应对随着时间和网络环境变化产生的概念漂移。本专利技术是通过以下技术方案实现的:一种黑产场景下恶意云机器人的识别方法,包括以下步骤:(1)在服务器端实时收集客户端发来的待测流量;(2)对待测流量进行样本提取,并进一步提取样本中与恶意云机器人识别模型相对应的特征向量;(3)将步骤(2)中得到的待测流量的特征向量作为输入,通过该恶意云机器人识别模型进行识别;其中,所述恶意云机器人识别模型通过下述方法构建:在服务器端实时收集客户端发来的流量,存储并提取样本,使用恶意云机器人数据库对样本数据进行标注,若初始样本的客户端IP包含在该数据库中,则将该初始样本标记为恶意云机器人样本;反之,则标记为人类用户样本;对样本流量数据进行多层流量统计特征的提取,得到特征向量;基于机器学习方法,利用特征向量训练多种分类器,选取具有最优效果的分类器,得到恶意云机器人识别模型。进一步地,上述识别方法中流量样本的提取方法为:将流量按照客户端IP-时间段进行汇聚,每个客户端在一定时间段内的流集合作为一个初始样本;更进一步地,所述流指具有相同五元组的包序列:{源IP,目的IP,源端口,目的端口,TCP};所述一定时间段优选为1h。进一步地,上述识别方法中流量样本的标注方法为:由于恶意云机器人流量来自于IDC,而其他正常用户流量理论上都应该来自于真实人类用户,因此使用IPIP.NET提供的权威IDCIP数据库作为基准,对初始样本进行标注;若初始样本的客户端IP包含在该数据库中,则将该初始样本标记为恶意云机器人样本;反之,则标记为人类用户样本;该数据库包含2亿IDCIP,并且每周对数据库进行实时更新。进一步地,上述识别方法中提取的特征向量包括:基本特征、操作系统指纹特征、TTL相关特征、端口相关特征和应用层统计特征。进一步地,所述恶意云机器人识别模型构建过程具体为:(1)选择分类算法并设置分类算法的参数;(2)将提取的特征向量数据集分为训练集与验证集,利用训练集训练恶意云机器人分类模型,利用验证集评估模型分类效果;(3)根据样本固有标签,计算恶意云机器人的准确率和召回率,若准确率和召回率不低于预设阈值,则当下的分类本文档来自技高网
...

【技术保护点】
1.一种黑产场景下恶意云机器人的识别方法,包括以下步骤:/n(1)在服务器端实时收集客户端发来的待测流量;/n(2)对待测流量进行样本提取,并进一步提取样本中与恶意云机器人识别模型相对应的特征向量;/n(3)将上述待测流量的特征向量作为输入,通过该恶意云机器人识别模型进行识别;/n其中,所述恶意云机器人识别模型通过下述方法构建:/n在服务器端实时收集客户端发来的流量,存储并提取样本,使用恶意云机器人数据库对样本数据进行标注,若初始样本的客户端IP包含在该数据库中,则将该初始样本标记为恶意云机器人样本;反之,则标记为人类用户样本;/n对样本流量数据进行多层流量统计特征的提取,得到特征向量;/n基于机器学习方法,利用特征向量训练多种分类器,选取具有最优效果的分类器,得到恶意云机器人识别模型。/n

【技术特征摘要】
1.一种黑产场景下恶意云机器人的识别方法,包括以下步骤:
(1)在服务器端实时收集客户端发来的待测流量;
(2)对待测流量进行样本提取,并进一步提取样本中与恶意云机器人识别模型相对应的特征向量;
(3)将上述待测流量的特征向量作为输入,通过该恶意云机器人识别模型进行识别;
其中,所述恶意云机器人识别模型通过下述方法构建:
在服务器端实时收集客户端发来的流量,存储并提取样本,使用恶意云机器人数据库对样本数据进行标注,若初始样本的客户端IP包含在该数据库中,则将该初始样本标记为恶意云机器人样本;反之,则标记为人类用户样本;
对样本流量数据进行多层流量统计特征的提取,得到特征向量;
基于机器学习方法,利用特征向量训练多种分类器,选取具有最优效果的分类器,得到恶意云机器人识别模型。


2.如权利要求1所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,待测流量样本的提取方法为:将流量按照客户端IP-时间段进行汇聚,每个客户端在一定时间段内的流集合作为一个初始样本。


3.如权利要求2所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述流集合指具有相同五元组的包序列:{源IP,目的IP,源端口,目的端口,TCP}。


4.如权利要求2所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述一定时间段为1h。


5.如权利要求1所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述恶意云机器人数据库为互联网数据中心IP数据库。


6.如权利要求1所述的一种黑产场景下恶意云机器人的识别方法,其特征在于,所述特征向量包括...

【专利技术属性】
技术研发人员:石俊峥刘梦严郭煜
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1