基于隐马尔科夫模型的用户行为与实体行为分析方法技术

技术编号:22974905 阅读:68 留言:0更新日期:2019-12-31 23:30
本发明专利技术公开了一种基于隐马尔科夫模型的用户行为与实体行为分析方法,包括:S1)搜集多方来源数据作为训练数据;S2)将异构数据使用One‑hot编码进行归一化;S3)对归一化后的结果进行递增编号;S4)设定时间窗口变量T,并根据时间窗口滚动划分出用户或实体的行为序列;S5)给定训练初始参数,得到用户或实体行为的转移概率矩阵与发射概率矩阵;S6)将HMM模型布置到实时生产环境上;S7)实时搜集多方数据来源,并获得对应的观测变量;S8)取时间窗口变量T长度的用户或实体行为序列,使用HMM模型预测得到发射概率。本发明专利技术能够解决传统单一维度的安全基线以及人为设定阈值存在偏差的情况。

Analysis method of user behavior and entity behavior based on Hidden Markov model

【技术实现步骤摘要】
基于隐马尔科夫模型的用户行为与实体行为分析方法
本专利技术涉及一种用户行为与实体行为分析方法,尤其涉及一种基于隐马尔科夫模型的用户行为与实体行为分析方法。
技术介绍
随着办公连网设备与云服务的普及,每日所产生的安全日志爆炸式成长。为了从宏观的角度观测整体安全情况,常利用安全基线进行表示。传统技术使用累计值或同比、环比的方式来建立宏观角度的安全基线。若当下的安全情况低于安全基线的阈值时,则发出安全告警;但是使用此类安全基线维度无法显示多方数据的关联性,所以只能对单一维度的数据人为设定阈值,不仅在数据维度上表现较为单一,阈值定义也存在人为偏差。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于隐马尔科夫模型的用户行为与实体行为分析方法,能够解决传统单一维度的安全基线以及人为设定阈值存在偏差的情况。本专利技术为解决上述技术问题而采用的技术方案是提供一种基于隐马尔科夫模型的用户行为与实体行为分析方法,包括如下步骤:S1)搜集多方来源数据作为训练数据;S2)将异构数据使用One-hot编码进行归一化;S3)针对每个用户群体或实体类型归一化后的结果进行递增编号,代表HMM的观测变量;S4)设定时间窗口变量T,并根据时间窗口滚动划分出用户或实体的行为序列;S5)给定训练初始参数,包含初始转移概率矩阵A,初始发射概率矩阵B,隐藏变量数量S与初始状态概率矩阵π,进行HMM建模,得到用户或实体行为的转移概率矩阵与发射概率矩阵;S6)将HMM模型布置到实时生产环境上;S7)实时搜集多方数据来源,对每条数据根据先前所得One-hot编码表,获得对应的观测变量;S8)取时间窗口变量T长度的用户或实体行为序列,使用HMM模型预测隐藏状态与对应发射概率矩阵得到发射概率,若发射概率低于设定的阈值,则发出安全告警。本专利技术对比现有技术有如下的有益效果:本专利技术提供的基于隐马尔科夫模型的用户行为与实体行为分析方法,通过搜集大量历史数据描绘安全基线,并根据用户或实体的实时行为,判断用户行为或实体行为的是否为恶意行为,有效利用历史数据与实时数据,并排除人为定义阈值的误差。附图说明图1为本专利技术的实施实例的用户行为与实体行为分析的模块示意图;图2本专利技术的实施实例在用户行为与实体行为分析阶段的流程图。具体实施方式下面结合附图和实施例对本专利技术作进一步的描述。请参见图1,本专利技术提供的基于隐马尔科夫模型的用户行为与实体行为分析方法包括数据搜集模块、HMM建模模块、用户或实体行为分析模块、安全告警模块。数据搜集模块,搜集多方数据来源,并进行数据清洗与转换。HMM建模模块,对历史数据使用One-hot编码进行归一化,对归一化结果进行递增编号,代表观测变量;根据指定初始化参数建立HMM模型。用户或实体行为分析模块,使用One-hot编码表对来自数据搜集模块的实时数据进行编码,使用HMM模型判断用户或实体的行为进行分析。安全告警模块,对用户或实体行为分析模块进行监听,如果发现用户或实体恶意行为,则实时将进行安全告警。本专利技术提供的一种基于隐马尔可夫链模型(HMM)的用户行为与实体行为分析(UEBA)方法,具有如下特点:1)根据用户或实体大量的历史数据得到安全基线。2)非人为定义安全告警标准,而是使用用户或实体的历史数据训练所得的HMM模型进行判断。3)实时从多方数据源搜集日志,并且从而精炼出安全告警。请继续参见图2,本专利技术一种基于隐马尔可夫链模型(HMM)的用户行为与实体行为分析(UEBA)方法的流程图如下:步骤1:搜集多方来源数据作为训练数据,数据来源包括主机日志,堡垒机日志,DLP日志等。步骤2:对异构数据使用One-hot编码进行归一化,例如编码字段为是否在上班时间,是否在下载文件,是否上传文件,下载文件的来源主机是否为生产主机,上传文件的目的端电脑是否为生产主机,是否外传文件,本身是否为生产主机,是否为高危操作,是否为中危操作,是否为低危操作,现有一条数据则根据本身情况,One-hot编码为1,1,0,1,0,0,0,0,0,1步骤3:针对每个用户群体或实体类型归一化后的结果进行递增编号,代表HMM的观测变量。步骤4:设定时间窗口变量T=3;设定隐藏状态数量S为10;初始概率矩阵π使用每个隐藏变量的初始概率皆为1/S;初始转移概率矩阵A,与初始发射概率矩阵B皆使用随机数产生。步骤5:进行HMM建模,可得到用户或实体行为的转移概率矩阵与发射概率矩阵。步骤6:线上实时搜集多方数据来源。步骤7:取特定用户的时间窗口长度T的行为序列,并对每个数据根据先前所得的One-hot编码,获得对应的观测变量,例如得到用户行为观测变量序列变量为10,50,51。步骤7:使用HMM模型预测当前隐藏状态,并查询发射概率矩阵,根据设定阈值判断是否发出安全告警;例如HMM模型预测出的当前时间隐藏变量为3,发射概率矩阵中隐藏变量3对应发生观测变量10的概率为0.03%,低于阈值0.1%,则发出安全告警。本专利技术的进步效果在于:搜集多方数据源作为训练数据,使用隐马尔可夫链模型(HMM)训练模型,排除人为定义偏差导致的安全基线误差;使用模型产生用户或实体行为基线,透过实时数据与安全基线达成用户或实体行为异常检测自动发现与安全告警,有效从大量数据中精炼安全事件并进行安全告警。虽然本专利技术已以较佳实施例揭示如上,然其并非用以限定本专利技术,任何本领域技术人员,在不脱离本专利技术的精神和范围内,当可作些许的修改和完善,因此本专利技术的保护范围当以权利要求书所界定的为准。本文档来自技高网...

【技术保护点】
1.一种基于隐马尔科夫模型的用户行为与实体行为分析方法,其特征在于,包括如下步骤:/nS1)搜集多方来源数据作为训练数据;/nS2)将异构数据使用One-hot编码进行归一化;/nS3)针对每个用户群体或实体类型归一化后的结果进行递增编号,代表HMM的观测变量;/nS4)设定时间窗口变量T,并根据时间窗口滚动划分出用户或实体的行为序列;/nS5)给定训练初始参数,包含初始转移概率矩阵A,初始发射概率矩阵B,隐藏变量数量S与初始状态概率矩阵π,进行HMM建模,得到用户或实体行为的转移概率矩阵与发射概率矩阵;/nS6)将HMM模型布置到实时生产环境上;/nS7)实时搜集多方数据来源,对每条数据根据先前所得One-hot编码表,获得对应的观测变量;/nS8)取时间窗口变量T长度的用户或实体行为序列,使用HMM模型预测隐藏状态与对应发射概率矩阵得到发射概率,若发射概率低于设定的阈值,则发出安全告警。/n

【技术特征摘要】
1.一种基于隐马尔科夫模型的用户行为与实体行为分析方法,其特征在于,包括如下步骤:
S1)搜集多方来源数据作为训练数据;
S2)将异构数据使用One-hot编码进行归一化;
S3)针对每个用户群体或实体类型归一化后的结果进行递增编号,代表HMM的观测变量;
S4)设定时间窗口变量T,并根据时间窗口滚动划分出用户或实体的行为序列;
S5)给定训练初始参数,包含初始转移概率矩阵A,初始发射概率矩阵B,隐藏变量数量S与初始状态概率矩阵π,进行HMM建模,得到用户或实体行为的转移概率矩阵与发射概率矩阵;
S6)将HMM模型布置到实时生产环境上;
S7)实时搜集多方数据来源,对每条数据根据先前所得One-hot编码表,获得对应的观...

【专利技术属性】
技术研发人员:唐誌欣黄宗纬
申请(专利权)人:上海赛可出行科技服务有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1