一种多维数据的异常组合检测方法及装置制造方法及图纸

技术编号:20425169 阅读:27 留言:0更新日期:2019-02-23 08:30
本发明专利技术公开了一种多维数据的异常组合检测方法,包括:获取待分析的样本集;待分析的样本集中包含特征数据,特征数据包含特征字段和属性值;依据预设的关联分析算法和待分析的样本集中每个特征出现的次数,从样本集中挖掘出特征的最大频繁项集;基于特征的最大频繁项集构建异常组合检测字典;异常组合检测字典包括:每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合;依据异常组合检测字典,检测待检测的样本集中异常的特征组合。由此,解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题,提高了异常检测效率和准确度。

【技术实现步骤摘要】
一种多维数据的异常组合检测方法及装置
本专利技术涉及信息安全领域,尤其涉及一种多维数据的异常组合检测方法及装置。
技术介绍
随着互联网技术的飞速发展,信息安全成为了人们越来越关注的问题,为了保证信息安全,需要在海量的数据中发现异常的行为。然而,异常的行为越来越多样,例如有一种异常行为多维数据的不断组合,例如,在登录风险检测中,某一设备、IP和用户的组合不断尝试登录,其中,设备、IP和用户均属于不同的维度,设备、IP和用户也就是一种多维数据的组合,而且,多维数据过于频繁的组合行为不断出现,这种批量行为很有可能是黑产通过机器实现的,目的是为了从平台非法获取利益。但是,传统的多维数据的异常组合的检测方法,通常是通过对样本特征值估计概率统计分布或者计算相似度距离进行的,然而,由于互联网信息越来越复杂,数据维度越来越多,异常数据的组合中,包含的数据维度也越来越多,传统的异常检测方法的计算开销成指数级增长。另一方面,频繁出现的异常多维度数据也不符合传统异常检测所要求的“离群点”原则。也就是说传统的异常检测方法无法实现对多维数据的异常组合行为进行检测。
技术实现思路
有鉴于此,本专利技术实施例公开了一种多维数据的异常组合检测方法及装置,解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题。获取待分析的样本集;所述待分析的样本集中包含特征数据,所述特征数据包括特征字段和属性值;依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数,从所述样本集中挖掘出特征的最大频繁项集;基于特征的最大频繁项集构建异常组合检测字典;所述异常组合检测字典包括:每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合;依据所述异常组合检测字典,检测待检测的样本集中异常的特征组合。可选的,所述获取待分析的样本集包括:获取原始的样本集;从原始的样本集中剔除掉无效的特征数据,得到待分析的样本集。可选的,所述从原始的样本集中筛选出影响异常组合检测的特征数据,得到待分析的样本集,包括:获取所述原始的样本集中每个特征字段的属性值;依据每个特征字段的属性值,计算每个特征的熵;选取熵值排名在前N的N个特征。可选的,所述依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数,从所述样本集中挖掘出特征的最大频繁项集,包括:记录所述待分析的样本集中每个特征出现的次数;基于预设的最小支持度,过滤掉小于最小支持度的特征;所述支持度表示特征出现的次数;依据特征出现的次数,构建频繁模式FP树;基于所述频繁模式FP树挖掘最大频繁项集。可选的,所述基于特征的最大频繁项集构建异常组合检测字典,包括:获取每个最大频繁项集中的特征字段,并将同一个最大频繁项集中的特征字段进行组合,得到特征字段组合项;从每个最大频繁项集中获取每个特征字段的属性值,并将同一个最大频繁项集中的属性值进行组合,得到属性组合项;建立属于同一个最大频繁项集中的特征字段组合项和属性组合项的关联关系。可选的,所述依据所述异常组合检测字典,检测待检测的样本集中的异常的特征组合,包括:将所述待检测的样本集中的各个特征进行组合,得到待检测的多个特征组合项;所述待检测的多个特征组合项包括:待检测的特征字段的组合项和属性的组合项;将每个待检测的特征字段组合项与所述异常组合检测字典中的各个特征字段组合项进行匹配;若匹配成功,判断所述待检测的特征字段组合项对应的待检测的属性的组合项是否与相应的异常检测组合字典中的特征字段组合项对应的属性值组合项相匹配;若匹配成功,则表示所述待检测的特征组合项为异常组合,所述异常组合包含的特征为异常样本。本专利技术实施例还公开了一种多维数据的异常组合检测装置,包括:获取单元,用于获取待分析的样本集;所述待分析的样本集中包含特征数据,所述特征数据包括特征字段和属性值;最大频繁项集挖掘单元,用于依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数,从所述样本集中挖掘出特征的最大频繁项集;异常组合检测子典构建子单元,用于基于特征的最大频繁项集构建异常组合检测字典;所述异常组合检测字典包括:每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合;异常组合检测单元,用于依据所述异常组合检测字典,检测待检测的样本集中异常的特征组合。可选的,所述获取单元包括:获取子单元,用于获取原始的样本集;剔除子单元,用于从原始的样本集中剔除掉无效的特征数据,得到待分析的样本集。可选的,所述异常组合检测子典构建子单元,包括:特征字段组合项获取子单元,用于获取每个最大频繁项集中的特征字段,并将同一个最大频繁项集中的特征字段进行组合,得到特征字段组合项;属性组合项获取子单元,用于从每个最大频繁项集中获取每个特征字段的属性值,并将同一个最大频繁项集中的属性值进行组合,得到属性组合项;关联关系建立子单元,用于建立属于同一个最大频繁项集中的特征字段组合项和属性组合项的关联关系。可选的,所述异常组合检测单元,包括:特征组合项获取子单元,用于将所述待检测的样本集中的各个特征进行组合,得到待检测的多个特征组合项;所述待检测的多个特征组合项包括:待检测的特征字段的组合项和属性的组合项;第一匹配子单元,用于将每个待检测的特征字段组合项与所述异常组合检测字典中的各个特征字段组合项进行匹配;第二匹配子单元,用于若匹配成功,判断所述待检测的特征字段组合项对应的待检测的属性的组合项是否与相应的异常检测组合字典中的特征字段组合项对应的属性值组合项相匹配;异常组合确定子单元,用于若匹配成功,则表示所述待检测的特征组合项为异常组合,所述异常组合包含的特征为异常样本。本专利技术公开了一种多维数据的异常组合检测方法,包括:获取待分析的样本集;待分析的样本集中包含特征数据,特征数据包含特征字段和属性值;依据预设的关联分析算法和待分析的样本集中每个特征出现的次数,从样本集中挖掘出特征的最大频繁项集;基于特征的最大频繁项集构建异常组合检测字典;异常组合检测字典包括:每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合;依据异常组合检测字典,检测待检测的样本集中异常的特征组合。这样,通过对最大频繁项集的挖掘,挖局出频繁的特征组合项,并构建包含频繁的特征组合项的异常检测字典,依据该字典对异常组合进行检测,解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题,提高了异常检测效率和准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1示出了本专利技术实施例提供的一种多维数据的异常组合检测方法的流程示意图;图2-图10示出了本专利技术实施例提供的一种最大频繁项集挖掘过程的示意图示意图;图11示出了本专利技术实施例提供的一种多维数据的异常组合检测装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人本文档来自技高网...

【技术保护点】
1.一种多维数据的异常组合检测方法,其特征在于,包括:获取待分析的样本集;所述待分析的样本集中包含特征数据,所述特征数据包括特征字段和属性值;依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数,从所述样本集中挖掘出特征的最大频繁项集;基于特征的最大频繁项集构建异常组合检测字典;所述异常组合检测字典包括:每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合;依据所述异常组合检测字典,检测待检测的样本集中异常的特征组合。

【技术特征摘要】
1.一种多维数据的异常组合检测方法,其特征在于,包括:获取待分析的样本集;所述待分析的样本集中包含特征数据,所述特征数据包括特征字段和属性值;依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数,从所述样本集中挖掘出特征的最大频繁项集;基于特征的最大频繁项集构建异常组合检测字典;所述异常组合检测字典包括:每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合;依据所述异常组合检测字典,检测待检测的样本集中异常的特征组合。2.根据权利要求1所述的方法,其特征在于,所述获取待分析的样本集包括:获取原始的样本集;从原始的样本集中剔除掉无效的特征数据,得到待分析的样本集。3.根据权利要求1所述的方法,其特征在于,所述从原始的样本集中筛选出影响异常组合检测的特征数据,得到待分析的样本集,包括:获取所述原始的样本集中每个特征字段的属性值;依据每个特征字段的属性值,计算每个特征的熵;选取熵值排名在前N的N个特征。4.根据权利要求1所述的方法,其特征在于,所述依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数,从所述样本集中挖掘出特征的最大频繁项集,包括:记录所述待分析的样本集中每个特征出现的次数;基于预设的最小支持度,过滤掉小于最小支持度的特征;所述支持度表示特征出现的次数;依据特征出现的次数,构建频繁模式FP树;基于所述频繁模式FP树挖掘最大频繁项集。5.根据权利要求1所述的方法,其特征在于,所述基于特征的最大频繁项集构建异常组合检测字典,包括:获取每个最大频繁项集中的特征字段,并将同一个最大频繁项集中的特征字段进行组合,得到特征字段组合项;从每个最大频繁项集中获取每个特征字段的属性值,并将同一个最大频繁项集中的属性值进行组合,得到属性组合项;建立属于同一个最大频繁项集中的特征字段组合项和属性组合项的关联关系。6.根据权利要求5所述的方法,其特征在于,所述依据所述异常组合检测字典,检测待检测的样本集中的异常的特征组合,包括:将所述待检测的样本集中的各个特征进行组合,得到待检测的多个特征组合项;所述待检测的多个特征组合项包括:待检测的特征字段的组合项和属性的组合项;将每个待检测的特征字段组合项与所述异常组合检测字典中的各个特征字段组合项进行匹配;若匹配成功,判断所述待检测的特征字段组...

【专利技术属性】
技术研发人员:宗志远
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1