一种异常行为检测方法、系统、电子设备及存储介质技术方案

技术编号:37480136 阅读:17 留言:0更新日期:2023-05-07 09:20
本申请提供了一种异常行为检测方法、系统、电子设备及存储介质,涉及大数据安全用户实体行为分析技术领域。该方法基于操作日志数据,创建行为会话,提取行为会话特征数据;基于行为会话特征数据训练得到行为序列算法模型;使用包含行为序列算法模型和统计算法模型的联合算法模型对待检测数据进行联合异常检测,生成异常检测结果;展示异常检测结果。本申请实施例通过行为会话的引入,加速了行为会话特征数据的提取,提升了行为序列算法模型训练和检测的速度;并且通过联合算法模型,不仅可以追踪异常行为轨迹,还可以从统计特征上面抓取异常行为,两者共同印证,大大提升了检测结果的准确率,且具有良好的解释性。且具有良好的解释性。且具有良好的解释性。

【技术实现步骤摘要】
一种异常行为检测方法、系统、电子设备及存储介质


[0001]本申请涉及大数据安全用户实体行为分析
,具体涉及一种异常行为检测方法、系统、电子设备及存储介质。

技术介绍

[0002]近年来,网络安全事件频发。因此如何在各种安全设备产生的海量原始日志数据或者告警数据中找出黑客的异常行为显得格外迫切且重要。然而,黑客日益狡猾,所使用的攻击手段花样繁多,其攻击行为日益隐蔽且没有明显的规律性。
[0003]当前,异常行为的检测手段按照数理逻辑大致分为四类:1)基于人工经验形成的规则法;2)基于一定规则的统计方法,如分位数算法、HBOS(基于直方图的异常值得分)算法等;3)基于神经网络等有监督类的算法,如CNN(卷积神经网络)、LSTM(长短期记忆人工神经网络)等;4)基于类群算法或树形算法等无监督类的算法,如聚类算法、孤立森林算法、频繁模式树算法等。这四类方法各有优点:第一类方法简便易用;第二类方法鲜明直观非常具有说服力;第三类方法考虑因素周全,函数描述和表达能力强;第四类方法不仅具有良好的抽象表征能力并且可解释性也相对较强。由于黑客攻击行为的日益隐蔽性和进化性,当前存在的方法或多或少离及时告警输出异常用户行为还存在着不小的差距,简单来说,上述第一类方法不仅存在很多误报还有不少漏报;第二类方法,虽然能发现很多的异常行为但是对于复杂行为或者非常隐蔽的行为几乎无能为力;第三类方法,只要选择的特征足够多就能表达万物,即有抓获任何可疑行为的能力,但是该类方法往往过于复杂,实现起来非常痛苦,与对大数据的实时检测相去甚远,并且非常抽象得出的检测结果可解释性很差;第四类方法,目前在安全领域异常行为检测中应用最广,其伸缩性非常大,因此实现起来也相对简便灵活,但是该类检测方法很难兼顾异常行为检测的准确性、及时性以及可解释性。
[0004]总而言之,当前严峻的安全形势对异常行为检测方法提出了新的更高要求,兼具准确性、及时性以及可解释性于一身的新的检测手法呼之欲出。

技术实现思路

[0005]鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的异常行为检测方法、系统、电子设备及存储介质。所述技术方案如下:第一方面,提供了一种异常行为检测方法,包括:采集操作日志数据;基于所述操作日志数据,创建行为会话,提取行为会话特征数据;基于所述行为会话特征数据训练得到行为序列算法模型;获取待检测数据,使用包含行为序列算法模型和统计算法模型的联合算法模型对所述待检测数据进行联合异常检测,生成异常检测结果,其中统计算法模型基于所述待检测数据来确定;展示所述异常检测结果。
[0006]在一种可能的实现方式中,基于所述操作日志数据,创建行为会话,提取行为会话特征数据,包括:基于所述操作日志数据,配置行为会话的参数;根据所述行为会话的参数和所述操作日志数据,将用于提取行为会话特征数据的多个处理函数封装成行为会话;定期执行行为会话,提取行为会话特征数据。
[0007]在一种可能的实现方式中,所述定期执行行为会话,提取行为会话特征数据,包括:定期从所述操作日志数据所在的源表中,提取包括用户、操作类型和操作时间的字段数据的数据集,并对操作时间使用时间戳转换函数转化为时间戳格式,数据集按照时间戳从小到大排序得到排序后的数据集,其中排序后的数据集包括用户、操作类型和操作时间戳的字段数据,操作类型为用户的操作行为的类型;在排序后的数据集中,将操作类型映射成单个字符的操作标识,得到映射后的数据集,并生成表示操作类型和操作标识的映射关系的操作类型映射表;在映射后的数据集中,按用户进行分组聚合得到各用户的操作标识数组字段以及操作时间戳数组字段;根据各用户的操作标识数组字段以及操作时间戳数组字段,计算各用户的相邻操作行为之间的时间差,得到各用户的操作行为间隔数组字段;对各用户的操作行为间隔数组字段进行处理,得到各用户的新会话标识数组字段;对各用户的新会话标识数组字段中的第一个元素进行修正处理,得到修正处理后的各用户的新会话标识数组字段;确定修正处理后的各用户的新会话标识数组中每个元素的位置值,生成各用户的会话索引数组字段;将各用户的会话索引数组字段进行行转列展开操作,得到各用户的行转列展开操作结果;根据各用户的行转列展开操作结果,生成由会话索引位置决定的切片数组,并对切片数组进行求和,得到各用户的行为会话标识,进而基于各用户的行为会话标识和映射后的数据集得到包含各用户的行为会话标识的数据集;从包含各用户的行为会话标识的数据集中,选择用户、操作时间戳、操作标识和行为会话标识的字段数据,并与操作类型映射表关联再次获取操作类型;基于从包含各用户的行为会话标识的数据集中选择的用户、操作时间戳、操作标识和行为会话标识的字段数据,以及与操作类型映射表关联再次获取的操作类型,进行聚合操作,生成包含用户、行为会话标识、行为会话起始时间戳、行为会话截止时间戳、操作标识序列、实际操作类型序列、行为序列创建时间的字段数据的行为序列数据,并作为行为会话特征数据,其中行为会话起始时间戳和行为会话截止时间戳由时间戳格式转换成日期时间型格式。
[0008]在一种可能的实现方式中,所述联合算法模型包括由行为序列算法模型和统计算法模型构建的串并联混合结构;
获取待检测数据,使用包含行为序列算法模型和统计算法模型的联合算法模型对所述待检测数据进行联合异常检测,生成异常检测结果,其中统计算法模型基于所述待检测数据来确定,包括:从所述行为会话特征数据获取第一类待检测数据,使用行为序列算法模型对第一类待检测数据进行异常检测,判定异常用户行为序列;基于训练得到的行为序列算法模型确定重点关注序列;从所述操作日志数据所在的源表中,提取每个用户重点关注序列发生次数这个单维度特征值作为第二类待检测数据;基于第二类待检测数据确定统计算法模型;将第二类待检测数据经过确定的统计算法模型进行异常检测,判定异常的用户;根据行为序列算法模型判定的异常用户行为序列和统计算法模型判定的异常的用户,联合判定最终的异常用户,生成包含最终的异常用户的异常检测结果。
[0009]在一种可能的实现方式中,所述基于第二类待检测数据确定统计算法模型,包括:若第二类待检测数据不满足正态分布,则确定统计算法模型为四分位算法模型;若第二类待检测数据满足正态分布,则确定统计算法模型为3σ准则算法模型。
[0010]在一种可能的实现方式中,所述联合算法模型包括由行为序列算法模型和统计算法模型构建的并联结构;获取待检测数据,使用包含行为序列算法模型和统计算法模型的联合算法模型对所述待检测数据进行联合异常检测,生成异常检测结果,其中统计算法模型基于所述待检测数据来确定,包括:从所述行为会话特征数据获取第一类待检测数据,使用行为序列算法模型对第一类待检测数据进行异常检测,判定异常用户行为序列;从业务需求信息确定目标操作类型;从所述操作日志数据所在的源表中,提取每个用户目标操作类型的次数这个单维度特征值作为第三类待检测数据;基于第三类待检测数据确定统计算法模型;将第三类待检测数据经过确定的统计算法模型进行异常检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常行为检测方法,其特征在于,包括:采集操作日志数据;基于所述操作日志数据,创建行为会话,提取行为会话特征数据;基于所述行为会话特征数据训练得到行为序列算法模型;获取待检测数据,使用包含行为序列算法模型和统计算法模型的联合算法模型对所述待检测数据进行联合异常检测,生成异常检测结果,其中统计算法模型基于所述待检测数据来确定;展示所述异常检测结果。2.根据权利要求1所述的方法,其特征在于,基于所述操作日志数据,创建行为会话,提取行为会话特征数据,包括:基于所述操作日志数据,配置行为会话的参数;根据所述行为会话的参数和所述操作日志数据,将用于提取行为会话特征数据的多个处理函数封装成行为会话;定期执行行为会话,提取行为会话特征数据。3.根据权利要求2所述的方法,其特征在于,所述定期执行行为会话,提取行为会话特征数据,包括:定期从所述操作日志数据所在的源表中,提取包括用户、操作类型和操作时间的字段数据的数据集,并对操作时间使用时间戳转换函数转化为时间戳格式,数据集按照时间戳从小到大排序得到排序后的数据集,其中排序后的数据集包括用户、操作类型和操作时间戳的字段数据,操作类型为用户的操作行为的类型;在排序后的数据集中,将操作类型映射成单个字符的操作标识,得到映射后的数据集,并生成表示操作类型和操作标识的映射关系的操作类型映射表;在映射后的数据集中,按用户进行分组聚合得到各用户的操作标识数组字段以及操作时间戳数组字段;根据各用户的操作标识数组字段以及操作时间戳数组字段,计算各用户的相邻操作行为之间的时间差,得到各用户的操作行为间隔数组字段;对各用户的操作行为间隔数组字段进行处理,得到各用户的新会话标识数组字段;对各用户的新会话标识数组字段中的第一个元素进行修正处理,得到修正处理后的各用户的新会话标识数组字段;确定修正处理后的各用户的新会话标识数组中每个元素的位置值,生成各用户的会话索引数组字段;将各用户的会话索引数组字段进行行转列展开操作,得到各用户的行转列展开操作结果;根据各用户的行转列展开操作结果,生成由会话索引位置决定的切片数组,并对切片数组进行求和,得到各用户的行为会话标识,进而基于各用户的行为会话标识和映射后的数据集得到包含各用户的行为会话标识的数据集;从包含各用户的行为会话标识的数据集中,选择用户、操作时间戳、操作标识和行为会话标识的字段数据,并与操作类型映射表关联再次获取操作类型;基于从包含各用户的行为会话标识的数据集中选择的用户、操作时间戳、操作标识和
行为会话标识的字段数据,以及与操作类型映射表关联再次获取的操作类型,进行聚合操作,生成包含用户、行为会话标识、行为会话起始时间戳、行为会话截止时间戳、操作标识序列、实际操作类型序列、行为序列创建时间的字段数据的行为序列数据,并作为行为会话特征数据,其中行为会话起始时间戳和行为会话截止时间戳由时间戳格式转换成日期时间型格式。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述联合算法模型包括由行为序列算法模型和统计算法模型构建的串并联混合结构;获取待检测数据,使用包含行为序列算法模型和统计算法模型的联合算法模型对所述待检测数据进行联合异常检测,生成异常检测结果,其中统计算法模型基于所述待检测数据来确定,包括:从所述行为会话特征数据获取第一类待检测数据,使用行为序列算法模型对第一类待检测数据进行异常检测,判定异常用户行为序列;基于训练得到的行为序列算法模型确定重点关注序列;从所述操作日志数据所在的源表中,提取每个用户重点关注序列发生次数这个单维度特征值作为第二类待...

【专利技术属性】
技术研发人员:许云风马振邹武梁淑云殷钱安魏国富宋小龙王雨民胡绍勇张照龙
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1