异常流量数据识别方法、装置、介质及电子设备制造方法及图纸

技术编号:21167011 阅读:53 留言:0更新日期:2019-05-22 09:38
本发明专利技术揭示了一种异常流量数据识别方法、装置、介质及电子设备。该方法包括:在黑名单用户和白名单用户的流量数据中,获取流量数据样本集;针对流量数据样本集中每个流量数据样本,确定预定特征集中根据卡方值确定的第二数目个特征,构成向量,将所有向量聚类成第三数目的类;在每一第二数目和第三数目的组合下,确定聚成的类中的错误数之和最小的选定第二数目和选定第三数目的组合,在该组合下聚成的类作为选定类;将待定用户流量数据聚到选定类中;根据聚类情况,基于该待定用户的风险得分判断该待定用户是否异常。此方法下,筛选出了适合用于识别异常流量的聚类方式和特征,在网络安全方面,提高了识别异常流量的准确性。

Abnormal Flow Data Recognition Method, Device, Medium and Electronic Equipment

The invention discloses a method, device, medium and electronic device for identifying abnormal flow data. The method includes: obtaining traffic data sample set from traffic data of blacklist users and whitelist users; determining the second number of features determined by the chi-square value in the predetermined feature set for each traffic data sample set, forming vectors, clustering all vectors into a third number of classes; and confirming that under the combination of each second number and the third number. The combination of the selected second number and the selected third number of errors in the aggregated classes is the combination of the minimum sum of errors. The aggregated classes are selected as the selected classes. The traffic data of the undetermined users are aggregated into the selected classes. According to the clustering situation, whether the undetermined users are abnormal or not is judged based on the risk score of the undetermined users. Under this method, the clustering methods and features suitable for identifying abnormal traffic are screened out. In the aspect of network security, the accuracy of identifying abnormal traffic is improved.

【技术实现步骤摘要】
异常流量数据识别方法、装置、介质及电子设备
本专利技术涉及互联网领域,特别涉及一种异常流量数据识别方法、装置、介质及电子设备。
技术介绍
随着互联网时代到来,黑客、投机者、黑产从业者甚至是普通人都想在虚拟的网络上得到利益。当一些科技公司通过互联网发售新品、当互联网公司在自家网站或者客户端上用发放数量有限的卡券、红包的方式来给用户福利时,经常会遭遇这些人的异常流量的攻击;除此之外,每年春运时,铁路售票网站都会遭遇不明流量,这些流量通常是黄牛用刷票软件等技术手段大批量购买车票,甚至会出现一节车厢的车票全部被黄牛买走的情况,给铁路售票网站造成流量压力的同时还损害了正常抢票的人的利益。在现有技术的实现中,对异常流量识别是基于用户行为埋点和SDK(SoftwareDevelopmentKit)确定路径重复度、设备前后端埋点占比、IP访问次数、IP访问账号数等流量特征与相应的阈值的大小关系来实现的;现有技术的缺陷在于,如果对流量的所有流量特征进行判断来确认一个流量是否是异常流量会耗费大量算力,所以是不现实的;而选取几个固定的流量特征来进行判断的话,攻击者经常会窃取要攻击的服务器的识别异常流量的方法进行反向工程,从而升级攻击手段,有时攻击者还会伪装相应的流量特征。现有技术无法确定适合用于识别异常流量的特征,识别异常流量的准确性不高。
技术实现思路
为了解决相关技术中存在的识别异常流量数据的准确率低的技术问题,本专利技术提供了一种异常流量数据识别方法、装置、介质及电子设备。根据本申请的一方面,提供了一种异常流量数据识别方法,所述方法包括:将所有用户分为黑名单用户、白名单用户和待定用户,所述用户具有流量数据,所述流量数据具有预定特征集中的特征;在预定时间段内黑名单用户和白名单用户的流量数据中,获取第一预定数目的流量数据,作为流量数据样本集,获取的每个流量数据为一个流量数据样本;针对流量数据样本集中的每个流量数据样本,确定针对每个流量数据样本的预定特征集中卡方值由高到低排列的前第二数目个特征,构成每个流量数据样本的第二数目维数的向量,将所有流量数据样本的向量聚类成第三数目的类;如果聚成的一类中黑名单用户的流量数据样本数量大于白名单用户的流量数据样本,则该类为黑类;如果聚成的一类中白名单用户的流量数据样本数量大于黑名单用户的流量数据样本,则该类为白类;将黑类中的白名单用户的流量数据样本数目作为该黑类的错误数;将白类中的黑名单用户的流量数据样本数目作为该白类的错误数;针对不同第二数目和第三数目的组合,在每一组合下,确定聚成的所有类中的错误数之和;将错误数之和最小的第二数目和第三数目的组合,作为选定第二数目和选定第三数目,在该组合下聚成的类作为选定类;将待定用户预定时间段内的每个流量数据聚到所述选定类之一中;将待定用户预定时间段内的每个流量数据所聚到的类的风险得分,作为该流量数据的风险得分,其中聚到的类的风险得分通过以下公式计算:其中score表示该类的风险得分,N0为该类聚得的所有流量数据样本中白名单用户的流量数据样本数目,N1为该类聚得的所有流量数据样本中黑名单用户的流量数据样本数目;基于待定用户预定时间段内的每个流量数据的风险得分,确定该待定用户在预定时间段内的风险得分;根据该待定用户在预定时间段内的风险得分,确定该待定用户是否是异常用户。根据本申请的另一方面,提供了一种异常流量数据识别装置,所述装置包括:用户分类模块,被配置为将所有用户分为黑名单用户、白名单用户和待定用户,所述用户具有流量数据;第一获取模块,被配置为在预定时间段内黑名单用户和白名单用户的流量数据中,获取第一预定数目的流量数据,作为流量数据样本集;聚类模块,被配置为针对流量数据样本集中的每个流量数据样本,确定针对每个流量数据样本的预定特征集中卡方值由高到低排列的前第二数目个特征,构成每个流量数据样本的第二数目维数的向量,将所有流量数据样本的向量聚类成第三数目的类;判断模块,被配置为如果聚成的一类中黑名单用户的流量数据样本数量大于白名单用户的流量数据样本,则该类为黑类;如果聚成的一类中白名单用户的流量数据样本数量大于黑名单用户的流量数据样本,则该类为白类;第一确定模块,被配置为将黑类中的白名单用户的流量数据样本数目作为该黑类的错误数;将白类中的黑名单用户的流量数据样本数目作为该白类的错误数;针对不同第二数目和第三数目的组合,在每一组合下,确定聚成的所有类中的错误数之和;第二确定模块,被配置为将错误数之和最小的第二数目和第三数目的组合,作为选定第二数目和选定第三数目,在该组合下聚成的类作为选定类;异常用户判断模块,被配置为将待定用户预定时间段内的每个流量数据聚到所述选定类之一中,其中所述异常用户判断模块被进一步配置为:将待定用户预定时间段内的每个流量数据所聚到的类的风险得分,作为该流量数据的风险得分;基于待定用户预定时间段内的每个流量数据的风险得分,确定该待定用户在预定时间段内的风险得分;以及根据该待定用户在预定时间段内的风险得分,确定该待定用户是否是异常用户。根据本申请的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。本专利技术的实施例提供的技术方案可以包括以下有益效果:本专利技术所提供的异常流量数据识别方法包括如下步骤:将所有用户分为黑名单用户、白名单用户和待定用户,所述用户具有流量数据,所述流量数据具有预定特征集中的特征;在预定时间段内黑名单用户和白名单用户的流量数据中,获取第一预定数目的流量数据,作为流量数据样本集,获取的每个流量数据为一个流量数据样本;针对流量数据样本集中的每个流量数据样本,确定针对每个流量数据样本的预定特征集中卡方值由高到低排列的前第二数目个特征,构成每个流量数据样本的第二数目维数的向量,将所有流量数据样本的向量聚类成第三数目的类;如果聚成的一类中黑名单用户的流量数据样本数量大于白名单用户的流量数据样本,则该类为黑类;如果聚成的一类中白名单用户的流量数据样本数量大于黑名单用户的流量数据样本,则该类为白类;将黑类中的白名单用户的流量数据样本数目作为该黑类的错误数;将白类中的黑名单用户的流量数据样本数目作为该白类的错误数;针对不同第二数目和第三数目的组合,在每一组合下,确定聚成的所有类中的错误数之和;将错误数之和最小的第二数目和第三数目的组合,作为选定第二数目和选定第三数目,在该组合下聚成的类作为选定类;将待定用户预定时间段内的每个流量数据聚到所述选定类之一中;将待定用户预定时间段内的每个流量数据所聚到的类的风险得分,作为该流量数据的风险得分,其中聚到的类的风险得分通过以下公式计算:其中score表示该类的风险得分,N0为该类聚得的所有流量数据样本中白名单用户的流量数据样本数目,N1为该类聚得的所有流量数据样本中黑名单用户的流量数据样本数目;基于待定用户预定时间段内的每个流量数据的风险得分,确定该待定用户在预定时间段内的风险得分;根据该待定用户在预定时间段内的风险得分,确定该待定用户是否是异常用户本文档来自技高网...

【技术保护点】
1.一种异常流量数据识别方法,其特征在于,所述方法包括:将所有用户分为黑名单用户、白名单用户和待定用户,所述用户具有流量数据,所述流量数据具有预定特征集中的特征;在预定时间段内黑名单用户和白名单用户的流量数据中,获取第一预定数目的流量数据,作为流量数据样本集,获取的每个流量数据为一个流量数据样本;针对流量数据样本集中的每个流量数据样本,确定针对每个流量数据样本的预定特征集中卡方值由高到低排列的前第二数目个特征,构成每个流量数据样本的第二数目维数的向量,将所有流量数据样本的向量聚类成第三数目的类;如果聚成的一类中黑名单用户的流量数据样本数量大于白名单用户的流量数据样本,则该类为黑类;如果聚成的一类中白名单用户的流量数据样本数量大于黑名单用户的流量数据样本,则该类为白类;将黑类中的白名单用户的流量数据样本数目作为该黑类的错误数;将白类中的黑名单用户的流量数据样本数目作为该白类的错误数;针对不同第二数目和第三数目的组合,在每一组合下,确定聚成的所有类中的错误数之和;将错误数之和最小的第二数目和第三数目的组合,作为选定第二数目和选定第三数目,在该组合下聚成的类作为选定类;将待定用户预定时间段内的每个流量数据聚到所述选定类之一中;将待定用户预定时间段内的每个流量数据所聚到的类的风险得分,作为该流量数据的风险得分,其中聚到的类的风险得分通过以下公式计算:...

【技术特征摘要】
1.一种异常流量数据识别方法,其特征在于,所述方法包括:将所有用户分为黑名单用户、白名单用户和待定用户,所述用户具有流量数据,所述流量数据具有预定特征集中的特征;在预定时间段内黑名单用户和白名单用户的流量数据中,获取第一预定数目的流量数据,作为流量数据样本集,获取的每个流量数据为一个流量数据样本;针对流量数据样本集中的每个流量数据样本,确定针对每个流量数据样本的预定特征集中卡方值由高到低排列的前第二数目个特征,构成每个流量数据样本的第二数目维数的向量,将所有流量数据样本的向量聚类成第三数目的类;如果聚成的一类中黑名单用户的流量数据样本数量大于白名单用户的流量数据样本,则该类为黑类;如果聚成的一类中白名单用户的流量数据样本数量大于黑名单用户的流量数据样本,则该类为白类;将黑类中的白名单用户的流量数据样本数目作为该黑类的错误数;将白类中的黑名单用户的流量数据样本数目作为该白类的错误数;针对不同第二数目和第三数目的组合,在每一组合下,确定聚成的所有类中的错误数之和;将错误数之和最小的第二数目和第三数目的组合,作为选定第二数目和选定第三数目,在该组合下聚成的类作为选定类;将待定用户预定时间段内的每个流量数据聚到所述选定类之一中;将待定用户预定时间段内的每个流量数据所聚到的类的风险得分,作为该流量数据的风险得分,其中聚到的类的风险得分通过以下公式计算:其中score表示该类的风险得分,N0为该类聚得的所有流量数据样本中白名单用户的流量数据样本数目,N1为该类聚得的所有流量数据样本中黑名单用户的流量数据样本数目;基于待定用户预定时间段内的每个流量数据的风险得分,确定该待定用户在预定时间段内的风险得分;根据该待定用户在预定时间段内的风险得分,确定该待定用户是否是异常用户。2.根据权利要求1所述的方法,其特征在于,所述基于待定用户预定时间段内的每个流量数据的风险得分,确定该待定用户在预定时间段内的风险得分具体包括:获取所述待定用户在预定时间段内的每个流量数据的风险得分的平均值;将所述平均值作为该待定用户在预定时间段内的风险得分。3.根据权利要求1所述的方法,其特征在于,所述根据该待定用户在预定时间段内的风险得分,确定该待定用户是否是异常用户具体包括:当该待定用户在预定时间段内的风险得分大于所述风险得分阈值时,判断该待定用户是异常用户;当该待定用户在预定时间段内的风险得分不大于所述风险得分阈值时,判断该待定用户不是异常用户。4.根据权利要求1所述的方法,其特征在于,在构成第二数目维数的向量之前,所述方法还包括:将前第二数目个特征中的每一个按照如下公式归一化到[0,1]:x是前第二数目个特征中任一要归一化的特征,xmin为流量数据样本集中最小的该特征,xmax为流量数据样本集中最大的该特征,是归一化后的该特征。5.根据权利要求1所述的方法,其特征在于,所述第一预定数目的流量数据中的黑名单用户和白名单用户的流量数据的数目相等。6.根据权利要求1所述的方法,其特征在于,所述针对流量数据样本集中的每个流量数据样本具体包括:针对流量数据样本集中预定比例的流量数据样本中每个流量数据样本;所述将错误数之和最小的第二数目和第三数目的组合,作为选定第二数目和选定第三数目,在该组...

【专利技术属性】
技术研发人员:孙家棣马宁谢波
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1