基于遗传算法的隐马尔科夫模型在主机风险评估中的应用制造技术

技术编号:15392006 阅读:78 留言:0更新日期:2017-05-19 05:04
本发明专利技术属于网络安全技术领域,具体涉及基于遗传算法的隐马尔科夫模型在主机风险评估中的应用;所述的基于遗传算法的隐马尔科夫模型在主机风险评估中的应用包括以下具体步骤:1)建立隐马尔科夫模型;2)应用遗传算法优化隐马尔科夫模型;本发明专利技术将隐马尔可夫模型和遗传算法结合使用来对主机风险进行评估,能够避免单独使用隐马尔可夫模型来对主机风险进行评估时的有时警报可能不在特定时间段内出现,关于该警报的先验信息则无法捕获,或者有时由于系统错误而可能生成太多警报,则先验信息会被夸大的问题。

Application of hidden Markov model based on Genetic Algorithm in host risk assessment

The invention belongs to the technical field of network security, in particular to a hidden Markov model based on Genetic Algorithm in the application of risk assessment in the host; the hidden Markov model based on Genetic Algorithm in the application of risk assessment in the host comprises following steps: 1) 2) hidden Markov model; hidden Markov model optimization using genetic algorithm; the invention of the hidden Markov model and genetic algorithm used to evaluate the risk of the host, can avoid the single hidden Markov model is used to assess the risk of the host's alarm may not appear in a specific period of time, the alarm about the prior information is not captured, or sometimes due to system error may be generated too more alert, a priori information will be exaggerated problem.

【技术实现步骤摘要】
基于遗传算法的隐马尔科夫模型在主机风险评估中的应用
本专利技术属于网络安全
,具体涉及基于遗传算法的隐马尔科夫模型在主机风险评估中的应用。
技术介绍
由于企业网络规模庞大,检测风险主机变得越来越困难。警报的数量迅速增加,这使得主机的选择和优先级排序变得非常关键。另一方面,大多数分析主机或警报的方法是手动进行的。当警报的数量太大时,这是不方便的。因此,需要一种更自动和智能的方法来对主机进行处理和优先级排序。隐马尔可夫模型(HMM)是一种随机模型,并且假定模型系统是一个具有隐藏状态的马尔可夫过程。HMM用于根据观察来评估隐藏状态。隐马尔科夫模型有两层:观察层和隐藏状态层。在不同的隐藏状态中有一些转换,而观察与观察之间没有任何连接。
技术实现思路
为了克服
技术介绍
中存在的不足,本专利技术提出基于遗传算法的隐马尔科夫模型在主机风险评估中的应用,通过一种智能的方式对主机进行处理和优先级排序,对主机风险进行评估。本专利技术是通过如下技术方案实现的基于遗传算法的隐马尔科夫模型在主机风险评估中的应用包括以下具体步骤:1)建立隐马尔科夫模型在安全应用中,我们为每个主机假定两个隐藏状态作为风险度量:良好或受损;主机的状态序列由X=X1,…,XT表示;警报序列由Y=Y1,…,YT表示;三组参数被用来描述一个HMM模型,包括隐藏状态转换矩阵P,发射矩阵Q和初始状态分布π,HMM的参数可以表示为λ=(P,Q,π),P,Q和π可以通过一些先验信息或专家知识来初始化。2)应用遗传算法优化隐马尔科夫模型隐马尔可夫模型的参数将被编码为染色体或种群,对于矩阵P和Q,条目按行编码;在种群初始化之后,将计算每个种群的适应度,其值用来表示种群的好坏;HMM的前向算法用于计算适应度的值,即当前隐藏状态和历史观测序列p(x(t),(y(1),y(2),...,y(t)))的合并概率;然后根据适应度值选择最佳父群体。父群体将通过交叉和变异,得到新一代的群体;具有最低适应度值的种群将被消除,这种演变将继续,直到满足停止标准,最后,来自遗传算法的最佳参数将被应用到Baum-Welch算法以训练隐马尔科夫模型,并且可以使用Viterbi算法推断主机的隐藏状态。进一步,在步骤1)中矩阵P描述隐藏状态之间转换的概率,条目pi,j=P(Xt+1=j|Xt=i)表示主机在时间t从状态i到时间t+1转换为状态j的概率。进一步,在步骤1)中矩阵Q描述了主机处于某种状态时给出不同观察的概率,假设主机在时间t处于隐藏状态i,则条目qi,j=P(Yt=yj|Xt=i)表示在时间t出现第j个观察的概率。进一步,在步骤2)中选择是指适合度值用于选择父染色体,这意味着适合度值越高,被选择为父染色体的机会越多。进一步,在步骤2)中交叉是指随机生成范围从0到1的数字,如果数字小于交叉率,父代个体将进行交叉,父代染色体中的一些基因将被交换以获得新的群体。进一步,在步骤2)中变异是指突变随机模拟染色体中基因的永久性改变,将产生随机数并与突变率进行比较,如果数量小于突变率,它将随机选择群体池中的一条染色体,并改变染色体中的一些基因。本专利技术的有益效果:本专利技术将隐马尔可夫模型和遗传算法结合使用来对主机风险进行评估,能够避免单独使用隐马尔可夫模型来对主机风险进行评估时的有时警报可能不在特定时间段内出现,关于该警报的先验信息则无法捕获,或者有时由于系统错误而可能生成太多警报,则先验信息会被夸大的问题。附图说明图1为隐马尔可夫模型;图2为混合GA-HMM;图3为染色体编码。图中,G和C代表这两个隐藏状态,Yk代表不同的警报。具体实施方式为了使本专利技术的目的、技术方案和有益效果更加清楚,下面将结合附图,对本专利技术的优选实施例进行详细的说明,以方便技术人员理解。如图1-3所示,马尔可夫模型(HMM)是一种随机模型,并且假定模型系统是一个具有隐藏状态的马尔可夫过程。HMM用于根据观察来评估隐藏状态。隐马尔科夫模型有两层:观察层和隐藏状态层。在不同的隐藏状态中有一些转换,而观察与观察之间没有任何连接。在安全应用中,我们为每个主机假定两个隐藏状态作为风险度量:良好或受损。而观察将是每个主机的安全警报。图1表示出了HMM模型的结构,其中G和C代表这两个隐藏状态,Yk代表不同的警报,例如,Y1可以是恶意软件感染,Y2可以是数据渗漏等等。主机状态随时间变化而变化。主机的状态序列由X=X1,…,XT表示。警报序列由Y=Y1,…,YT表示。三组参数被用来描述一个HMM模型,包括隐藏状态转换矩阵P,发射矩阵Q和初始状态分布π。矩阵P描述隐藏状态之间转换的概率。条目pi,j=P(Xt+1=j|Xt=i)表示主机在时间t从状态i到时间t+1转换为状态j的概率。矩阵Q描述了主机处于某种状态时给出不同观察的概率。假设主机在时间t处于隐藏状态i,则条目qi,j=P(Yt=yj|Xt=i)表示在时间t出现第j个观察的概率。HMM的参数可以表示为λ=(P,Q,π)。估计矩阵P,Q的参数和向量π非常重要,这将决定模型的精确度。P,Q和π可以通过一些先验信息或专家知识来初始化。例如,我们可以为良好和受损状态、以相等的初始概率来设置π=[0.5,0.5]。安全分析师可能认为好的主机有0.1的概率被损坏,而被损坏的主机有0.2的概率恢复正常,那么我们可以设置对于Q,我们可以获得与受损主机nC和良好主机nG相关的警报数量,以及与受损主机nkC和良好主机nkG相关的kth警报的数量。发射矩阵中与kth警报相关的条目可以如下计算:从良好状态到kth警报:qG,k=nkG/nG;从损坏状态到kth警报:qC,k=nkC/nC。从这些P,Q和π的初始值,可以使用Baum-Welch算法来学习参数。HMM中的参数学习任务是在给定输出序列的情况下找到隐藏状态转换和发射概率的最佳集合。该任务通常是在给定输出序列集合的情况下导出HMM的参数的最大似然估计。在参数学习之后,可以使用Viberti算法来找到由观察到的事件序列导致的最可能的隐藏状态序列。例如,一台主机上来自Viberti算法的HMM输出即使如此。从最近推断的状态,我们知道这个主机很可能存在风险。然而,Baum-Welch算法倾向于收敛到接近初始参数的局部最优解。因此,如果先验信息不正确,我们将得到不准确的结果。另一方面,遗传算法(GA)有助于找到全局最优值。因此,我们提出一个基于GA的混合隐马尔可夫模型,以提高HMM的性能。整个过程如图2所示。在这里,隐马尔可夫模型的参数将被编码为染色体或种群。对于矩阵P和Q,条目按行编码。如图3所示,在每个染色体中有三个片段分别代表矩阵P,Q和向量π。例如,假设我们有20种不同类型的警报,则P是2乘2矩阵,Q是2乘20矩阵。π是具有2个元素的向量。每条染色体的长度为2X2+2X20+2=46。在种群初始化之后,将计算每个种群的适应度,其值用来表示种群的好坏。HMM的前向算法用于计算适应度的值,即当前隐藏状态和历史观测序列p(x(t),(y(1),y(2),...,y(t)))的合并概率。因此,适应度值越高,参数越适合数据。然后根据适应度值选择最佳父群体。父群体将通过交叉和变异,得到新一代的群体。关于选择/交叉/突变操作的更多细节描述如下。选择:适合度值用于选择父本文档来自技高网...
基于遗传算法的隐马尔科夫模型在主机风险评估中的应用

【技术保护点】
基于遗传算法的隐马尔科夫模型在主机风险评估中的应用,其特征在于:所述的基于遗传算法的隐马尔科夫模型在主机风险评估中的应用包括以下具体步骤:1)建立隐马尔科夫模型在安全应用中,我们为每个主机假定两个隐藏状态作为风险度量:良好或受损;主机的状态序列由X=X

【技术特征摘要】
1.基于遗传算法的隐马尔科夫模型在主机风险评估中的应用,其特征在于:所述的基于遗传算法的隐马尔科夫模型在主机风险评估中的应用包括以下具体步骤:1)建立隐马尔科夫模型在安全应用中,我们为每个主机假定两个隐藏状态作为风险度量:良好或受损;主机的状态序列由X=X1,…,XT表示;警报序列由Y=Y1,…,YT表示;三组参数被用来描述一个隐马尔科夫模型,包括隐藏状态转换矩阵P,发射矩阵Q和初始状态分布π,隐马尔科夫模型的参数可以表示为λ=(P,Q,π);2)应用遗传算法优化隐马尔科夫模型隐马尔可夫模型的参数将被编码为染色体或种群,对于矩阵P和Q,条目按行编码;在种群初始化之后,将计算每个种群的适应度,其值用来表示种群的好坏;HMM的前向算法用于计算适应度的值,即当前隐藏状态和历史观测序列p(x(t),(y(1),y(2),...,y(t)))的合并概率;然后根据适应度值选择最佳父群体,父群体将通过交叉和变异,得到新一代的群体;具有最低适应度值的种群将被消除,这种演变将继续,直到满足停止标准,最后,来自遗传算法的最佳参数将被应用到Baum-Welch算法以训练隐马尔科夫模型,并且可以使用Viterbi算法推断主机的隐藏状态。2.根据权利要求1所述的基于遗传算法的隐马尔科夫模型在主机...

【专利技术属性】
技术研发人员:冯望烟吴淑宁张立钢
申请(专利权)人:浙江中都信息技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1