【技术实现步骤摘要】
一种流量数据的聚类处理方法、装置及电子设备
本专利技术涉及大数据
,特别涉及一种流量数据的聚类处理方法、装置及电子设备。
技术介绍
目前,随着互联网用户的日益增多,互联网领域正面临着大流量数据的挑战。大流量数据中难免会出现异常流量,这些异常流量会给互联网带来巨大的冲击与损失,例如,黑色产业形成的木马播种、流量交易和虚拟财产套现等诸多黑色产业链都会产生大量的异常流量。在现有技术的实现中,流量异常的识别一般是通过采集用户行为埋点和sdk数据来确定路径重复度、设备前后端登录埋点占比、ip访问账号数、ip访问次数、周期内手机号段用户登录均值和方差等特征,根据每一条流量数据的这些特征,确定该流量数据异常的概率。现有技术的缺陷在于,黑色产业往往表现为群体的流量数据出现异常,而现有技术对于流量异常的识别是针对每一条流量数据孤立确定的,无法满足对于群体的流量数据整体分析的需求。
技术实现思路
为了解决相关技术中存在的无法满足对于群体的流量数据整体分析的需求,本专利技术提供了一种流量数据的聚类处理方法、装置及电子设备。一种流量数据的聚类处理方法,所述流量数据包括白数据和黑数据,所 ...
【技术保护点】
1.一种流量数据的聚类处理方法,其特征在于,所述流量数据包括白数据和黑数据,所述白数据是从确定为白用户的用户的数据流量中抽取的流量数据,所述黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,所述白用户是确定为不会发出异常流量数据的用户,所述黑用户是确定为会发出异常流量数据的用户,所述方法包括:在预置特征库中选取N个特征,N为正整数;基于流量数据的所选取的特征对应的特征值,得到所述流量数据的特征向量;所述特征向量包括所述流量数据的所述N个特征各自对应的特征值;其中,一个所述特征对应一个所述特征值;根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,M为大于等于2 ...
【技术特征摘要】
1.一种流量数据的聚类处理方法,其特征在于,所述流量数据包括白数据和黑数据,所述白数据是从确定为白用户的用户的数据流量中抽取的流量数据,所述黑数据是从确定为黑用户的用户的数据流量中抽取的流量数据,所述白用户是确定为不会发出异常流量数据的用户,所述黑用户是确定为会发出异常流量数据的用户,所述方法包括:在预置特征库中选取N个特征,N为正整数;基于流量数据的所选取的特征对应的特征值,得到所述流量数据的特征向量;所述特征向量包括所述流量数据的所述N个特征各自对应的特征值;其中,一个所述特征对应一个所述特征值;根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,M为大于等于2的正整数;确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中白数据的数量和黑数据的数量中较少的一个数量;将最小的簇错误数总和所对应的特征个数和簇个数,作为流量数据聚类时选取的目标特征数和目标簇个数。2.根据权利要求1所述的方法,其特征在于,所述在预置特征库中选取N个特征包括:在预置特征库中选取卡方值从高到低前N个特征。3.根据权利要求1所述的方法,其特征在于,流量数据中白数据和黑数据的比为预设比例。4.根据权利要求3所述的方法,其特征在于,所述预设比例为1:1。5.根据权利要求1所述的方法,其特征在于,所述根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇,包括:对所述流量数据的特征向量所包括的各特征值进行归一化处理,得到归一化特征向量,其中归一化处理是用所述流量数据的特征向量所包括的一个特征的特征值除以所有所述流量数据的特征向量所包括的该特征的最大特征值的结果;将所述归一化特征向量聚类成M个簇。6.根据权利要求1所述的方法,其特征在于,在根据所述流量数据的特征向量,将所有所述流量数据聚类成M个簇之前,所述方法还包括:根据所述流量数据的特征向量,将一部分所述流量数据聚类成M个簇,M为大于等于2的正整数;确定在各种M和N取值的组合下所述流量数据分成的簇的簇错误数总和,所述簇错误数总和是分成的每个簇的错误数相加的结果,每个簇的错误数是指该簇中...
【专利技术属性】
技术研发人员:孙家棣,马宁,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。