一种异常行为检测方法、系统、电子设备及存储介质技术方案

技术编号：37480136 阅读：31 留言：0更新日期：2023-05-07 09:20

本申请提供了一种异常行为检测方法、系统、电子设备及存储介质，涉及大数据安全用户实体行为分析技术领域。该方法基于操作日志数据，创建行为会话，提取行为会话特征数据；基于行为会话特征数据训练得到行为序列算法模型；使用包含行为序列算法模型和统计算法模型的联合算法模型对待检测数据进行联合异常检测，生成异常检测结果；展示异常检测结果。本申请实施例通过行为会话的引入，加速了行为会话特征数据的提取，提升了行为序列算法模型训练和检测的速度；并且通过联合算法模型，不仅可以追踪异常行为轨迹，还可以从统计特征上面抓取异常行为，两者共同印证，大大提升了检测结果的准确率，且具有良好的解释性。且具有良好的解释性。且具有良好的解释性。

全部详细技术资料下载

【技术实现步骤摘要】
一种异常行为检测方法、系统、电子设备及存储介质

[0001]本申请涉及大数据安全用户实体行为分析
，具体涉及一种异常行为检测方法、系统、电子设备及存储介质。

技术介绍

[0002]近年来，网络安全事件频发。因此如何在各种安全设备产生的海量原始日志数据或者告警数据中找出黑客的异常行为显得格外迫切且重要。然而，黑客日益狡猾，所使用的攻击手段花样繁多，其攻击行为日益隐蔽且没有明显的规律性。
[0003]当前，异常行为的检测手段按照数理逻辑大致分为四类：1）基于人工经验形成的规则法；2）基于一定规则的统计方法，如分位数算法、HBOS（基于直方图的异常值得分）算法等；3）基于神经网络等有监督类的算法，如CNN（卷积神经网络）、LSTM（长短期记忆人工神经网络）等；4）基于类群算法或树形算法等无监督类的算法，如聚类算法、孤立森林算法、频繁模式树算法等。这四类方法各有优点：第一类方法简便易用；第二类方法鲜明直观非常具有说服力；第三类方法考虑因素周全，函数描述和表达能力强；第四类方法不仅具有良好的抽象表征能力并且可解释性也相对...

【技术保护点】

【技术特征摘要】
1.一种异常行为检测方法，其特征在于，包括：采集操作日志数据；基于所述操作日志数据，创建行为会话，提取行为会话特征数据；基于所述行为会话特征数据训练得到行为序列算法模型；获取待检测数据，使用包含行为序列算法模型和统计算法模型的联合算法模型对所述待检测数据进行联合异常检测，生成异常检测结果，其中统计算法模型基于所述待检测数据来确定；展示所述异常检测结果。2.根据权利要求1所述的方法，其特征在于，基于所述操作日志数据，创建行为会话，提取行为会话特征数据，包括：基于所述操作日志数据，配置行为会话的参数；根据所述行为会话的参数和所述操作日志数据，将用于提取行为会话特征数据的多个处理函数封装成行为会话；定期执行行为会话，提取行为会话特征数据。3.根据权利要求2所述的方法，其特征在于，所述定期执行行为会话，提取行为会话特征数据，包括：定期从所述操作日志数据所在的源表中，提取包括用户、操作类型和操作时间的字段数据的数据集，并对操作时间使用时间戳转换函数转化为时间戳格式，数据集按照时间戳从小到大排序得到排序后的数据集，其中排序后的数据集包括用户、操作类型和操作时间戳的字段数据，操作类型为用户的操作行为的类型；在排序后的数据集中，将操作类型映射成单个字符的操作标识，得到映射后的数据集，并生成表示操作类型和操作标识的映射关系的操作类型映射表；在映射后的数据集中，按用户进行分组聚合得到各用户的操作标识数组字段以及操作时间戳数组字段；根据各用户的操作标识数组字段以及操作时间戳数组字段，计算各用户的相邻操作行为之间的时间差，得到各用户的操作行为间隔数组字段；对各用户的操作行为间隔数组字段进行处理，得到各用户的新会话标识数组字段；对各用户的新会话标识数组字段中的第一个元素进行修正处理，得到修正处理后的各用户的新会话标识数组字段；确定修正处理后的各用户的新会话标识数组中每个元素的位置值，生成各用户的会话索引数组字段；将各用户的会话索引数组字段进行行转列展开操作，得到各用户的行转列展开操作结果；根据各用户的行转列展开操作结果，生成由会话索引位置决定的切片数组，并对切片数组进行求和，得到各用户的行为会话标识，进而基于各用户的行为会话标识和映射后的数据集得到包含各用户的行为会话标识的数据集；从包含各用户的行为会话标识的数据集中，选择用户、操作时间戳、操作标识和行为会话标识的字段数据，并与操作类型映射表关联再次获取操作类型；基于从包含各用户的行为会话标识的数据集中选择的用户、操作时间戳、操作标识和
行为会话标识的字段数据，以及与操作类型映射表关联再次获取的操作类型，进行聚合操作，生成包含用户、行为会话标识、行为会话起始时间戳、行为会话截止时间戳、操作标识序列、实际操作类型序列、行为序列创建时间的字段数据的行为序列数据，并作为行为会话特征数据，其中行为会话起始时间戳和行为会话截止时间戳由时间戳格式转换成日期时间型格式。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述联合算法模型包括由行为序列算法模型和统计算法模型构建的串并联混合结构；获取待检测数据，使用包含行为序列算法模型和统计算法模型的联合算法模型对所述待检测数据进行联合异常检测，生成异常检测结果，其中统计算法模型基于所述待检测数据来确定，包括：从所述行为会话特征数据获取第一类待检测数据，使用行为序列算法模型对第一类待检测数据进行异常检测，判定异常用户行为序列；基于训练得到的行为序列算法模型确定重点关注序列；从所述操作日志数据所在的源表中，提取每个用户重点关注序列发生次数这个单维度特征值作为第二类待...

【专利技术属性】
技术研发人员：许云风，马振，邹武，梁淑云，殷钱安，魏国富，宋小龙，王雨民，胡绍勇，张照龙，
申请(专利权)人：上海观安信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人