建立数据检测模型的方法、数据检测方法及设备技术

技术编号:17253995 阅读:32 留言:0更新日期:2018-02-11 14:46
本发明专利技术提供一种建立数据检测模型的方法、数据检测方法及设备,其中建立数据检测模型的方法包括:获取入侵流量样本、流量行为规则以及入侵流量样本的标记信息,标记信息用于表示入侵流量样本的性质;利用入侵流量样本、流量行为规则以及入侵流量样本的标记信息对机器学习模型进行训练,直至机器学习模型对入侵流量样本识别准确率达到预设条件,其中机器学习模型包括存储模块、关联模块和检测模块,入侵流量样本分别作为关联模块和检测模块的输入数据,存储模块用于存储行为规则信息,关联模块对入侵流量样本与行为规则信息进行匹配度计算以输出相关程度信息,检测模块根据入侵流量样本和相关程度信息输出入侵流量样本的性质信息。

【技术实现步骤摘要】
建立数据检测模型的方法、数据检测方法及设备
本专利技术涉及数据安全领域,具体涉及一种建立数据检测模型的方法、数据检测方法及设备。
技术介绍
互联网中普遍存在恶意数据,这些恶意数据通常用于入侵用户的电子设备,现有的入侵检测系统主要有两类:一是基于特征的检测,利用恶意数据攻击特征库来检测网络中的入侵,二是基于异常的检测,根据历史网络行为规律来找出当前不合规律即异常行为。基于特征的检测中,每个攻击特征都用规则或规则链表示,它的基本工作流程是先从网络中抓取流量数据包,然后分析流量包中的内容,和规则集相对照,当数据包内容完全满足规则定义时则触发规则对应的动作,例如记录、警报等。这种方法需要事先建立攻击特征库,由规则来表示攻击特征,因此这种方法适用于已知其攻击特征的攻击类型,不能检测到未知攻击。基于异常的检测通常是使用统计或机器学习的方法,对已经标记好的历史数据进行学习建模,然后对抓取网络流量包获取该时刻流量或该时间段流量的特征,依据模型判断流量是否为异常或攻击。这种方法根据历史网络行为进行建模来区分正常和异常行为,但网络行为比较复杂,因此这种方法误报率比较高,经常会把正常流量判定为攻击,发出警报后仍需要人工做大量的验证工作。由此可见,现有的数据检测方式准确性较低。
技术实现思路
本专利技术要解决的是现有的数据检测方式准确性低的问题。有鉴于此,第一方面,本专利技术提供一种建立数据检测模型的方法,包括:获取入侵流量样本、流量行为规则以及所述入侵流量样本的标记信息,所述标记信息用于表示所述入侵流量样本的性质;利用入侵流量样本、流量行为规则以及所述入侵流量样本的标记信息对机器学习模型进行训练,直至所述机器学习模型对入侵流量样本识别准确率达到预设条件,其中所述机器学习模型包括存储模块、关联模块和检测模块,所述入侵流量样本分别作为关联模块和检测模块的输入数据,存储模块用于存储所述行为规则信息,关联模块对入侵流量样本与行为规则信息进行匹配度计算以输出相关程度信息,检测模块根据入侵流量样本和相关程度信息输出入侵流量样本的性质信息。优选地,所述入侵流量样本采用特征化向量进行表示。优选地,所述流量行为规则为根据数据行为规则链建立的矩阵。优选地,所述关联模块的数量为多个,多个关联模块分别利用所述特征化向量和相应的行为规则信息进行训练,使多个关联模块分别输出所述入侵流量样本与行为规则信息的关联程度信息。第二方面,本专利技术提供一种数据检测方法,包括:获取网络流量信息;根据所述网络流量信息确定所述网络流量信息与预设行为规则的关联程度信息;根据所述网络流量信息和所述关联程度信息确定所述网络流量信息的性质。优选地,所述根据所述网络流量信息确定所述网络流量信息与预设行为规则的关联程度信息的步骤,包括:利用机器学习模型中的关联模块和存储模块根据所述网络流量信息确定所述网络流量信息与预设行为规则的关联程度信息,其中所述存储模块存储有多个预设行为规则,所述关联模块的参数是利用入侵流量样本进行训练得确定的,用于确定网络流量信息与预设行为规则的关联程度信息。优选地,所述关联模块的数量为多个,每个所述关联模块分别输出一个所述网络流量信息与预设行为规则的关联程度信息。优选地,所述根据所述网络流量信息和所述关联程度信息确定所述网络流量信息的性质的步骤,包括:利用机器学习模型中的检测模块根据所述网络流量信息和所述关联程度信息确定所述待检测数据的性质,其中所述检测模块的参数是利用数据样本进行训练确定的。第三方面,本专利技术提供一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述第一方面提供的建立数据检测模型的方法。第四方面,本专利技术提供一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述第二方面提供的数据检测方法。根据本专利技术提供的种建立数据检测模型的方法及设备,利用入侵流量样本和行为规则信息对机器学习模型进行训练,以使机器学习模型能够将关于数据或攻击的知识用于辅助识别数据的性质,该方法根据输入、规则集、期望输出同时学习出两个子模块即关联模块和检测模块,而非独立训练两种模型,这使得两种块间具有较强的关联性,这两个块能够在基于特征的流量检测上扩展入侵检测范围,发现未知攻击,并且,由于模型能够围绕已知攻击进行检测,因此能够有效降低对正常流量的误报情况,从而降低人工验证的工作,提高入侵检测效率。根据本专利技术提供的数据检测方法及设备,首先确定网络流量信息与预设行为规则的关联程度信息,然后根据确定的关联程度信息判定网络流量信息的性质,该方法从数据的实际特征为初始依据,其检测性质的操作依赖于行为检测结果,该方案基于特征的流量检测上扩展入侵检测范围,发现未知攻击,并且,由于围绕已知攻击进行检测,因此能够有效降低对正常流量的误报情况,从而降低人工验证的工作,提高入侵检测效率。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的建立数据检测模型的方法的流程图;图2为本专利技术实施例所采用的机器学习模型的模块结构图;图3为本专利技术实施例提供的数据检测方法的流程图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术第一实施例提供了一种建立数据检测模型的方法,如图1所示,该方法包括如下步骤:S11,获取入侵流量样本、流量行为规则以及入侵流量样本的标记信息。获取的数据分为两类,一是入侵流量样本以及所述入侵流量样本的标记信息,在本实施例中优选采用特征化向量表示所述入侵流量样本,标记信息可以是用于注明该流量是否为异常的信息,或为用于描述何种异常的信息,异常包括但不限于攻击、篡改、非法操作、越权操作等;二是流量行为规则,流量行为规则用于描述已知网络攻击特点,若干条行为规则抽象化为矩阵表示。上述流量行为规则应与入侵流量同源,即同一模型中使用的规则信息应由相应的入侵流量中学习到,或入侵流量样本的标记信息由相应规则得到。S12,利用数据特征信息和相应的行为规则信息以及标记信息对机器学习模型进行训练,直至所述机器学习模型对入侵流量样本识别准确率达到稳定且最优。机器学习模型以人工神经网络模型为基础,为了提高模型的识别准确率通常需要使用大量的数据样本,样本的内容是预先确定正确无误的。图2示出了本实施例所采用的机器学习模型的模块结构图,在此步骤中,机器学习模型包括存储模块201、关联模块202和检测模块203,上述入侵流量样本分别作为关联模块202和检测模块203的输入数据,存储模块中预先存储上述行为规则信息。本文档来自技高网...
建立数据检测模型的方法、数据检测方法及设备

【技术保护点】
一种建立数据检测模型的方法,其特征在于,包括:获取入侵流量样本、流量行为规则以及所述入侵流量样本的标记信息,所述标记信息用于表示所述入侵流量样本的性质;利用入侵流量样本、流量行为规则以及所述入侵流量样本的标记信息对机器学习模型进行训练,直至所述机器学习模型对入侵流量样本识别准确率达到预设条件,其中所述机器学习模型包括存储模块、关联模块和检测模块,所述入侵流量样本分别作为关联模块和检测模块的输入数据,存储模块用于存储所述行为规则信息,关联模块对入侵流量样本与行为规则信息进行匹配度计算以输出相关程度信息,检测模块根据入侵流量样本和相关程度信息输出入侵流量样本的性质信息。

【技术特征摘要】
1.一种建立数据检测模型的方法,其特征在于,包括:获取入侵流量样本、流量行为规则以及所述入侵流量样本的标记信息,所述标记信息用于表示所述入侵流量样本的性质;利用入侵流量样本、流量行为规则以及所述入侵流量样本的标记信息对机器学习模型进行训练,直至所述机器学习模型对入侵流量样本识别准确率达到预设条件,其中所述机器学习模型包括存储模块、关联模块和检测模块,所述入侵流量样本分别作为关联模块和检测模块的输入数据,存储模块用于存储所述行为规则信息,关联模块对入侵流量样本与行为规则信息进行匹配度计算以输出相关程度信息,检测模块根据入侵流量样本和相关程度信息输出入侵流量样本的性质信息。2.根据权利要求1所述的方法,其特征在于,所述入侵流量样本采用特征化向量进行表示。3.根据权利要求1所述的方法,其特征在于,所述流量行为规则为根据数据行为规则链建立的矩阵。4.根据权利要求1所述的方法,其特征在于,所述关联模块的数量为多个,多个关联模块分别利用所述特征化向量和相应的行为规则信息进行训练,使多个关联模块分别输出所述入侵流量样本与行为规则信息的关联程度信息。5.一种数据检测方法,其特征在于,包括:获取网络流量信息;根据所述网络流量信息确定所述网络流量信息与预设行为规则的关联程度信息;根据所述网络流量信息和所述关联程度信息确定所述网络流量信息的性质。6.根据权利要求5所述的方法,其特征在于,所述根据所述网络流量信息确定所述网络流...

【专利技术属性】
技术研发人员:龙春高筱娴赵静杨帆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1