当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于机器学习的网络用户安全状态评估方法技术

技术编号:13584880 阅读:44 留言:0更新日期:2016-08-24 14:28
本发明专利技术公开了一种基于机器学习的网络用户安全状态评估方法,包括:基于确定的风险传播源u和其传播时间t,建立网络风险的微观传播模型;基于所述传播源,对所述微观传播模型进行多轮的模拟传播;传播结束后,提取指定的特征属性及其对应的特征值形成特征向量;将提取到的特征向量输入到分类器中进行分类训练,生成可以判定新输入特征向量类属的分类规则;实际传播事件发生t时间后,提取网络中所有未被监控用户对应的特征向量;将提取到的特征向量输入训练好的分类器进行分类,获得所有未被监控用户安全状态的估计值。本发明专利技术方法通过部分用户的安全状态信息来估计网络中其他用户的安全状态,从而迅速有效地对高风险用户进行处理,阻止风险的传播。

【技术实现步骤摘要】

本项专利技术属于在线网络的信息安全领域。具体来说是一种通过监控大规模在线网络中的小部分用户或者主机,在发生大规模网络风险(谣言、蠕虫病毒)传播事件后,安全人员能够根据被监控用户的状态信息和网络拓扑对网络中其他未被监控用户或者计算机的安全状态做出有效估计。
技术介绍
互联网的广泛普及使我们更容易遭受各类网络风险,例如社交网络中谣言肆意传播,计算机病毒感染大量主机,智能电网的网络隔离故障导致大规模断电。每年,因这些网络风险而造成的金融和社会财富的损失不计其数。为了及时地发现网络风险,保障国家和民众的信息安全,通常的做法是监控网络中的计算机和用户,或从计算机和用户处收集安全日志等数据来分析风险。当发现谣言、计算机病毒或其他形式的风险时,网络安全人员能够迅速地消灭风险。此种做法的理想情况是安全人员能够监控网络的所有计算机和用户,随时获取其安全状态信息,但是理想情况在现实中显然难以实现。一方面由于网络规模过大,全网监控的成本过高;另一方面出于隐私保护的需求,人们绝大多数情况下不愿意被监控和接受数据采集。例如,微软操作系统的用户体验计划和各种杀毒软件常常通过弹出窗口来征求用户是否同意提交本地的安全运行日志,并声称这些数据可以更好地保护用户。然而,绝大多数用户通常选择拒绝。针对同意监控和数据采集的用户,安全人员可以及时地掌握其安全情况并保护他们,但是对于那些不愿意被监控和分享数据的用户,仅仅依靠分享的有限信息和数据,安全人员是否也可以及时地掌握其安全状态并迅速地保护他们呢?在美国前安全局雇员斯诺登先生披露美国政府一直在监控世界范围内的民众的网络行为后,这个问题变得尤为尖锐和重要。我们的目标是在保护大多数用户隐私的前提下(只监控部分愿意被监控的用户)在风险传播事件发生后对全网用户的安全状态进行有效估计。目前,暂时没有解决相同问题的相关工作,但是研究人员仍然能够找到解决类似问题的工作。目前,类似问题主要有三种:通过在传感器网络上的部分观察来优化监控传感器的选择,和通过网络数据的传播日志来推断和重构网络的结构,以及通过交通探测监控小车收集到的数据来判断和预估整个城市交通的拥
堵状况。这些工作在本质上都是需要通过网络的部分信息推断网络的全部信息。但是,这些技术存在以下缺点。其一、这些工作中的目标数据在网络中都是静态的,绝大多数不涉及风险或是信息在网络上的传播过程,因此不能很好地处理在线网络中风险传播的动态性问题;其二、即便这些相关工作中涉及到风险或是信息的传播,它们的前提条件也是针对全网络的监控和掌握。这导致了如果将这些方法应用在大规模在线网络上会产生过高的监控成本而且不利于保护网络用户的隐私。所以,目前的相关技术不能很好地解决大规模在线网络中的用户风险评估问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出一种基于机器学习的网络用户安全状态评估方法。本专利技术的方法当网络风险爆发时,安全人员可以通过部分计算机或用户的安全状态信息来估计网络中其他计算机或用户的安全状态,从而迅速有效地对高风险用户进行处理,阻止风险的传播。进一步的,本专利技术的方法一方面能够保护好网络用户的个人隐私,另一方面能够快速地定位高风险计算机和用户,并高效地实施防御措施。针对当前中国的网络安全生态和各种层出不穷的网络应用,本专利技术将有力地保障国家和民众的信息安全需求。本专利技术的核心思路是采用机器学习的方法。具体的是通过历史信息来训练生成一个健壮的分类器,该分类器可以对任意未被监控用户的传播特征向量做出分类判断。根据网络拓扑模拟生成大量的风险传播事件,并提取一些传播特征。之后进行特征选取,形成特征向量。特征向量的选择应该与节点是否被感染密切相关。例如其周围被感染监控用户的个数,其到风险源的拓扑距离,目标节点自身的度数等。通过生成的特征向量可以利用机器学习的方法进行大量的数据训练,从而生成用于判定用户安全状态的分类器。通过这个分类器,我们可以对网络用户的安全状态进行有效估计。本专利技术解决其技术问题所采用的技术方案是:一种基于机器学习的网络用户安全状态评估方法,包括:基于确定的风险传播源u和其传播时间t,建立网络风险的微观传播模型;基于所述传播源,对所述微观传播模型进行多轮的模拟传播,且每轮的传播时间均设置为t;传播结束后,提取指定的特征属性及其对应的特征值形成大量的特征向量;将提取到的特征向量输入到分类器中进行分类训练,生成可以判定新输入特征向量类属的分类规则;实际传播事件发生t时间后,提取网络中所有未被监控用户对应的特征向量;将提取到
的特征向量输入训练好的分类器进行分类,获得所有未被监控用户安全状态的估计值;根据估计值判断出未被监控用户的安全状态。优选的,基于确定的风险传播源u和其传播时间t,建立网络风险的微观传播模型,包括:建立如下迭代公式来表示风险的传播:PS(i,t;u)=[1-v(i,t)]·PS(i,t-1;u)PI(i,t;u)=v(i,t)·PS(i,t-1;u)+PI(i,t-1;u)v(i,t)=1-Πj∈Ni[1-ηij·PC(j,t-1;u)]]]>Pc(i,t;u)=v(i,t)·PS(i,t-1;u)其中,PS(i,t;u)、PI(i,t;u)、Pc(i,t;u)分别表示网络风险从潜在传播源u∈U开始,传播t时间后S、I及C状态的概率,U表示潜在的风险源集合,S代表健康,I代表感染状态,C表示被感染且具有感染性;v(i,t)表示t时刻节点被感染的概率,ηij∈[0,1]是网络中任意两个节点的历史传播概率,ηij=0时示节点i、j之间不存在连接,ηij=1表示节点i将收到的任何信息都传给节点j;Ni表示节点i的相邻节点的集合。优选的,所述指定的特征属性包括:监控用户占全部用户的比例;根据历史信息得到的目标节点被感染的先验概率;源点到目标节点的有效感染距离;目标节点到源点的跳数;目标节点的出度;目标节点的入度;目标节点的入度方向上,一跳范围内被感染监控节点的个数;目标节点的入度方向上,两跳范围内被感染监控节点的个数;目标节点的出度方向上,一跳范围内被感染监控节点的个数;目标节点的出度方向上,两跳范围内被感染监控节点的个数;目标节点的状态信息。优选的,所述目标节点的状态信息表示需要分类的属性,取值为0或1,0表示健康,1表示被风险感染。优选的,所述分类器包括朴素贝叶斯分类器。优选的,所述将提取到的特征向量输入到分类器中进行分类训练,生成可以判定新输入特征向量类属的分类规则,包括:确定特征属性划分;获取特征向量的训练样本;计算训练样本中每个类别的频率;所述类别包括感染用户和健康用户;计算每个类别条件下各个特征属性划分的频率。优选的,所述源点到目标节点的有效感染距离用下式表示:dij=1-log Pij其中,Pij表示根据历史信息得到的节点j被节点i感染的先验概率。优选的,所述提取指定的特征属性及其对应的特征值生成特征向量之后,还包括:对生成的特征向量进行预处理操作。优选的,所述对生成的特征向量进行预处理操作包括:对特征向量进行数据去重,相同的特征向量只保留一个;对溢出数据设定指定值。本专利技术具有如下有益效果:1、当发生网络风险传播事件后,安全本文档来自技高网
...

【技术保护点】
一种基于机器学习的网络用户安全状态评估方法,其特点在于,包括:基于确定的风险传播源u和其传播时间t,建立网络风险的微观传播模型;基于所述传播源,对所述微观传播模型进行多轮的模拟传播,且每轮的传播时间均设置为t;传播结束后,提取指定的特征属性及其对应的特征值形成大量的特征向量;将提取到的特征向量输入到分类器中进行分类训练,生成可以判定新输入特征向量类属的分类规则;实际传播事件发生t时间后,提取网络中所有未被监控用户对应的特征向量;将提取到的特征向量输入训练好的分类器进行分类,获得所有未被监控用户安全状态的估计值;根据估计值判断出未被监控用户的安全状态。

【技术特征摘要】
1.一种基于机器学习的网络用户安全状态评估方法,其特点在于,包括:基于确定的风险传播源u和其传播时间t,建立网络风险的微观传播模型;基于所述传播源,对所述微观传播模型进行多轮的模拟传播,且每轮的传播时间均设置为t;传播结束后,提取指定的特征属性及其对应的特征值形成大量的特征向量;将提取到的特征向量输入到分类器中进行分类训练,生成可以判定新输入特征向量类属的分类规则;实际传播事件发生t时间后,提取网络中所有未被监控用户对应的特征向量;将提取到的特征向量输入训练好的分类器进行分类,获得所有未被监控用户安全状态的估计值;根据估计值判断出未被监控用户的安全状态。2.根据权利要求1所述的基于机器学习的网络用户安全状态评估方法,其特征在于,基于确定的风险传播源u和其传播时间t,建立网络风险的微观传播模型,包括:建立如下迭代公式来表示风险的传播:PS(i,t;u)=[1-v(i,t)]·PS(i,t-1;u)PI(i,t;u)=v(i,t)·PS(i,t-1;u)+PI(i,t-1;u)v(i,t)=1-Πj∈Ni[1-ηij·PC(j,t-1;u)]]]>Pc(i,t;u)=v(i,t)·PS(i,t-1;u)其中,PS(i,t;u)、PI(i,t;u)、Pc(i,t;u)分别表示网络风险从潜在传播源u∈U开始,传播t时间后S、I及C状态的概率,U表示潜在的风险源集合,S代表健康,I代表感染状态,C表示被感染且具有感染性;v(i,t)表示t时刻节点被感染的概率,ηij∈[0,1]是网络中任意两个节点的历史传播概率,ηij=0时示节点i、j之间不存在连接,ηij=1表示节点i将收到的任何信息都传给节点j;Ni表示节点i的相邻节点的集合。3.根据权利要求2所述的基于机器学习的网络用户安全状态评估方法,其特征在...

【专利技术属性】
技术研发人员:王田吴尤可文晟钟必能王成吴群
申请(专利权)人:华侨大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1