一种基于异质时序事件嵌入学习的内部威胁检测系统及方法技术方案

技术编号:23212900 阅读:25 留言:0更新日期:2020-01-31 21:55
本发明专利技术涉及一种基于异质时序事件嵌入学习的内部威胁检测系统及方法,包括用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块;通过对组织或者企业内用户异质时序事件的收集、数据的过滤和去噪、异质时序事件包含的实体的嵌入、异质时序事件序列概率估计和内部威胁输出4个过程实现。该方法通过综合分析用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件的多个实体,全面的刻画了用户行为,提高了该系统检测的准确率,降低了系统检测的误报率;此外,该系统通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列的概率,使检测过程不依赖于领域专家的先验知识,提高了系统的智能性。

An internal threat detection system and method based on heterogeneous sequential event embedding learning

【技术实现步骤摘要】
一种基于异质时序事件嵌入学习的内部威胁检测系统及方法
本专利技术涉及一种基于异质时序事件嵌入学习的内部威胁检测系统及方法,属于信息安全

技术介绍
内部威胁是恶意的内部用户利用自己的特权访问组织的网络、系统和数据,并且破坏组织信息的机密性、完整性和可用性[1]。检测内部威胁是实现组织全面保护的首要任务。由于内部用户了解组织的网络结构和安全防御机制,因此内部用户的恶意活动可能十分隐蔽,使得难以检测。一些内部威胁检测方法通过分析一种单独的事件类型来建模用户正常行为模型,例如基于系统调用的检测方法[2]、基于键盘鼠标动态的检测方法[3][4]、基于UNIX命令的检测方法[5]、基于文件访问行为的检测方法[6]。然而以上的基于单独事件类型的检测方法只能检测特定类型的内部威胁。对于一些恶意活动,例如一个恶意用户登录其他用户的主机,查找敏感文件并使用USB拷贝来窃取数据,单独的基于登录事件的检测方法可能无法检测该恶意活动。因此,近期的研究方法结合多种类型的事件来建模用户正常行为模型[7]。大多数该类方法从多种类型的事件中提取一系列特征,然后将特征向量输入机器学习方法进行模型训练和异常检测[8][9][10][11][12]。然而基于特征工程的方法依赖于专家先验知识,并且只能检测已知类型的内部威胁。为了减少对于先验知识的依赖,一些研究方法[13][14][15]探索基于异质时序事件的检测方法。异质时序事件序列中的操作序列被抽取,用来建模用户正常行为模型。然而仅有操作实体被考虑,事件中其他的实体被忽略了。相反,本专利技术提出的基于异质时序事件嵌入学习的内部威胁检测系统综合地考虑了异质时序事件的多个实体来建模用户正常行为模型,使得系统在不依赖先验知识的情况下,能够准确的检测内部威胁。[1]CostaD.L.,AlbrethsenM.J.,CollinsM.L.,etal.:Aninsiderthreatindicatoron-tology.TECHNICALREPORTCMU/SEI.Pittsburgh,PA:SEI,Tech.Rep.,2016.[2]P.Parveen,J.Evans,B.Thuraisingham,K.W.Hamlenetal.,“Insiderthreatdetectionusingstreamminingandgraphmining,”inPrivacy,Security,RiskandTrust(PASSAT)andIEEEThirdInernationalConferenceonSocialComputing(SocialCom).IEEE,pp.1102–1110,2011.[3]T.Hu,W.Niu,X.Zhang,X.Liu,J.Lu,andY.Liu,“AnInsiderThreatDetectionApproachBasedonMouseDynamicsandDeepLearning.”SecurityandCommunicationNetworks,2019.[4]A.Morales,J.Fierrez,andJ.Ortega-Garcia,“Towardspredictinggoodusersforbiometricrecognitionbasedonkeystrokedynamics,”EuropeanConferenceonComputerVision,Springer,vol.8926,pp.711-724,2014.[5]M.B.SalemandS.J.Stolfo,“Acomparisonofone-classbag-of-wordsuserbehaviormodelingtechniquesformasqueradedetection,”SecurityandCommunicationNetworks,vol.5,no.8,pp.863–872,2012.[6]J.B.R.Monroy,L.A.Trejoetal.,“TemporalandSpatialLocality:AnAbstractionforMasqueradeDetection,”IEEETrans.Inf.FORENSICSSecur.,vol.11,no.9,pp.2036-2051,2016.[7]L.Liu,O.D.Vel,Q.L.Han,J.Zhang,andY.Xiang,“DetectingandPreventingCyberInsiderThreats:ASurvey,”IEEECommunicationsSurveys&Tutorials,vol.20,no.2,pp.1397-1417,2018.[8]E.Ted,H.G.Goldberg,A.Memory,W.T.Youngetal.,“Detectinginsiderthreatsinarealcorporatedatabaseofcomputerusageactivity,”inProceedingsofthe19thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,pp.1393–1401,2013.[9]W.T.Young,H.G.Goldberg,A.Memory,J.F.Sartainetal.,“Useofdomainknowledgetodetectinsiderthreatsincomputeractivities,”inSecurityandPrivacyWorkshops(SPW).IEEE,pp.60–67,2013.[10]A.Tuor,S.Kaplan,B.Hutchinson,N.Nichols,andS.Robinson,“Deeplearningforunsupervisedinsiderthreatdetectioninstructuredcybersecuritydatastreams,”inAIforCybersecurityWorkshopatAAAI,2017.[11]P.Chattopadhyay,L.Wang,andY.P.Tan,“Scenario-BasedInsiderThreatDetectionFromCyberActivities.”IEEETransactionsonComputationalSocialSystems,vol.5,no.3,2018.[12]T.-F.Yen,A.Oprea,K.Onarlioglu,T.Leetham,W.Robertson,A.Juels,andE.Kirda,“Beehive:Large-scaleloganalysisfordetectingsuspiciousactivityinenterprisenetworks,”ACSAC.ACM,pp.199–208,2013.[13]T.Rashid,I.Agrafiotis,andJ.R.C.Nurse,“Anewt本文档来自技高网...

【技术保护点】
1.一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于,包括:用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块,其中:/n用户异质时序事件采集模块:在组织或者企业内需要监控的重要人员的主机上部署审计节点,审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件,即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件,具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体,审计节点将审计的异质时序事件实时发送到服务器;/n数据预处理模块:对服务器接收的异质时序事件进行过滤,提取出有效异质时序事件;然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将集合中的异质时序事件按照时间排序;根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;最后将每个异质时序事件序列数据集划分为两部分,一部分作为训练数据集输入异质时序事件嵌入学习模块,另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块,一个用户对应一个训练数据集和一个待检测数据集;/n异质时序事件嵌入学习模块:每一个异质时序事件包含4个实体,对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量;根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长;再根据实体所属的异质时序事件的事件类型设定更新速率;最后利用随机梯度上升方法,按照上述更新步长和更新速率,更新实体的嵌入向量和上下文向量。输出根据用户训练集更新后的实体的嵌入向量和上下文向量;/n用户异质时序事件序列异常评估和内部威胁输出模块:对于多个用户的待检测数据集中的一个异质时序事件序列,从异质时序事件嵌入学习模块的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率,再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积,然后进行归一化,归一化的结果作为异质时序事件序列的概率,最后将异质时序事件序列的概率与阈值相比较,若概率低于设定的阈值,则该异质时序事件序列被判定为内部威胁并输出告警。/n...

【技术特征摘要】
1.一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于,包括:用户异质时序事件采集模块、数据预处理模块、异质时序事件嵌入学习模块、用户异质时序事件序列异常评估和内部威胁输出模块,其中:
用户异质时序事件采集模块:在组织或者企业内需要监控的重要人员的主机上部署审计节点,审计节点采集被监控的多个用户的主机登录、文件访问、邮件通信、web浏览、移动设备连接5种行为产生的异质时序事件,即审计用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件5种异质时序事件,具体每个异质时序事件需要审计的数据包括时间、用户名、主机编号、操作4个实体,审计节点将审计的异质时序事件实时发送到服务器;
数据预处理模块:对服务器接收的异质时序事件进行过滤,提取出有效异质时序事件;然后将不同用户产生的有效异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将集合中的异质时序事件按照时间排序;根据设定的时间间隔划分每个异质时序事件集合为多个异质时序事件序列并存储到服务器的数据库中作为异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;最后将每个异质时序事件序列数据集划分为两部分,一部分作为训练数据集输入异质时序事件嵌入学习模块,另一部分作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块,一个用户对应一个训练数据集和一个待检测数据集;
异质时序事件嵌入学习模块:每一个异质时序事件包含4个实体,对每个用户的训练数据集中的所有异质时序事件的每一个实体赋值一个嵌入向量和一个上下文向量;根据负采样方法,计算实体的嵌入向量和上下文向量的更新步长;再根据实体所属的异质时序事件的事件类型设定更新速率;最后利用随机梯度上升方法,按照上述更新步长和更新速率,更新实体的嵌入向量和上下文向量。输出根据用户训练集更新后的实体的嵌入向量和上下文向量;
用户异质时序事件序列异常评估和内部威胁输出模块:对于多个用户的待检测数据集中的一个异质时序事件序列,从异质时序事件嵌入学习模块的输出抽取序列中的所有异质时序事件包含的实体的嵌入向量和上下文向量,通过向量之间的交互计算异质时序事件序列中的起始事件的概率和序列中除了起始事件之外的其他所有异质时序事件的条件概率,再通过链式法则计算起始事件的概率和所有的异质时序事件的条件概率的乘积,然后进行归一化,归一化的结果作为异质时序事件序列的概率,最后将异质时序事件序列的概率与阈值相比较,若概率低于设定的阈值,则该异质时序事件序列被判定为内部威胁并输出告警。


2.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于:所述用户异质时序事件采集模块实现步骤如下:
(1)在组织或者企业内需要监控的重要人员的主机上部署审计节点;
(2)每个审计节点实时采集被审计主机上用户主机登录行为产生的用户主机登录事件,每一个主机登录事件审计登录时间、用户名、主机编号、登录/登出操作4个实体;
(3)每个审计节点实时采集被审计主机上用户文件访问行为产生的文件访问事件,每一个文件访问事件审计访问时间、用户名、主机编号、文件操作4个实体;
(4)每个审计节点实时采集被审计主机上用户邮件通信行为产生的邮件通信事件,每一个邮件通信事件审计通信时间、用户名、主机编号、发送/接收操作4个实体;
(5)每个审计节点实时采集被审计主机上用户web浏览行为产生的web浏览事件,每一个web浏览事件审计浏览时间、用户名、主机编号、和浏览域名4个实体;
(6)每个审计节点实时采集被审计主机上用户移动设备连接行为产生的移动设备连接事件,每一个移动设备连接事件审计连接时间、用户名、主机编号、连接/断开操作4个实体;
(7)将各个审计节点审计的多个用户的用户主机登录事件、文件访问事件、邮件通信事件、web浏览事件和移动设备连接事件共5种异质时序事件实时发送到服务器。


3.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于:所述数据预处理模块实现如下:
(1)将服务器接收的异质时序事件存储到服务器的数据库中;
(2)审计节点可能多次发送同一个异质时序事件,因此对于重复的异质时序事件进行过滤,相同时间点的异质时序事件,只保留一个;
(3)审计的异质时序事件的一些实体可能存在缺失,对于缺失实体的异质时序事件进行删除;
(4)按照异质时序事件中的用户名实体,将异质时序事件划分为不同的异质时序事件集合,一个集合对应一个用户,再将每个集合中的异质时序事件按照时间排序;
(5)设定固定的时间间隔为[Ts,Te],Ts和Te分别为开始时刻和终止时刻,在该时间间隔内的所有异质时序事件作为一个异质时序事件序列,将每个异质时序事件集合按照设定的时间间隔划分为多个异质时序事件序列,构成异质时序事件序列数据集,一个异质时序事件序列数据集对应一个用户;
(6)设时间点T0之前的用户行为均为正常行为,将每个异质时序事件序列数据集划分为两部分,T0之前的所有异质时序事件序列作为训练数据集输入异质时序事件嵌入学习模块,T0之后的所有异质时序事件序列作为待检测数据集输入用户异质时序事件序列异常评估和内部威胁输出模块,一个用户对应一个训练数据集和一个待检测数据集。


4.根据权利要求1所述的一种基于异质时序事件嵌入学习的内部威胁检测系统,其特征在于:所述异质时序事件嵌入学习模块实现如下:
(1)每一个异质时序事件包含4个实体,对每一个实体赋值一个嵌入向量和一个上下文向量,对于一个训练数据集中的一个异质时序事件序列通过实体嵌入向量和上下文向量的交互,计算异质时序事件序列s中起始事件的概率和序列s中除了起始事件之外的其他所有异质时序事件的条件概率;
(1.1)随机初始化一个异质时序事件序列s中所有异质时序事件包含的实体的嵌入向量和上下文向量,实体的嵌入向量是该实体在欧式空间的表示,实体的上下文向量是实体作为上下文角色在欧式空间的表示;
(1.2)通过实体的嵌入向量的交互计算异质时序事件序列s中起始事件的概率,起始事件的概率量化该事件作为异质时序事件序列起始事件的正常性;
(1.3)根据马尔科夫假设,通过实体的嵌入向量和上下文向量的交互计算异质时序事件序列s中除了起始事件之外的其他所有异质时序事件的条件概率,中的一个异质时序事件ei的条件概率量化该事件和最近...

【专利技术属性】
技术研发人员:于爱民王佳荣蔡利君孟丹马建刚
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1