【技术实现步骤摘要】
基于多算法结合的入侵检测方法、装置及计算机设备
[0001]本专利技术涉及一种基于多算法结合的入侵检测方法、装置及计算机设备,属于计算机网络安全
技术介绍
[0002]近年来,数据泄露和恶意攻击已经成为许多企业关注的主要问题。计算机网络安全问题愈发严重,为避免造成数据的泄露及丢失,计算机的入侵检测技术尤为关键,按照数据源可分为基于网络和基于主机的入侵检测方法(HIDS)。
[0003]其中基于主机的入侵检测方法能有效的检测来自内部的攻击,但是目前许多HIDS框架不考虑跟踪文件中系统调用的相对顺序进行分析。因此,当侵入性进程的系统调用模式与正常进程的系统调用模式交错时,这些HIDS框架就不能很好地执行。其次考虑跟踪文件中系统调用的顺序信息来识别异常进程,这些框架中使用的特征向量长度非常大。这将导致较高的处理开销,使它们不适合实时部署。此外,基于一般机器学习算法的模型的HIDS框架虽然已被证明表现良好。但它们具有较高的复杂性和虚警率的缺陷仍然无法忽视。
[0004]为了应对上述问题,本申请设计一种基于tfidfvectorizer算法和奇异值分解的数据预处理方式以及改进机器学习算法建模结合的主机入侵检测方法。
技术实现思路
[0005]为了解决上述问题,本专利技术提出了一种基于多算法结合的入侵检测方法、装置及计算机设备,能够解决传统入侵检测技术存在误报率高、检测效率低下的问题。
[0006]本专利技术解决其技术问题采取的技术方案是:第一方面,本专利技术实施例提供的一种基于 ...
【技术保护点】
【技术特征摘要】
1.一种基于多算法结合的入侵检测方法,其特征在于,包括以下步骤:采集用于入侵检测的原始数据;采用TF
‑
IDF算法和奇异值分解算法对原始数据进行预处理;将预处理后的数据按照7比3的比例分为训练数据集和测试数据集;基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:为训练数据点,为训练数据点的类型,=0表示数据点属于正常类,=1表示攻击类;将训练数据集数据输入SVM分类器进行模型训练,并采用测试数据集进行SVM分类器的效果检测;所述输入SVM分类器进行模型训练的训练数据集表示为:其中N是语料库中文档的总数;利用训练及测试后的SVM分类器进行入侵检测。2.根据权利要求1所述的基于多算法结合的入侵检测方法,其特征在于,所述采用TF
‑
IDF算法和奇异值分解算法对原始数据进行预处理,包括:建立系统调用跟踪文件的语料库;所述系统调用跟踪文件包括供系统调用的正常跟踪文件和异常跟踪文件;调用语料库中所有系统调用跟踪文件唯一的n
‑
gram术语;将系统调用跟踪文件转换为n元特征向量,其中,转换后的n元特征向量的每个元素对应于前面标识的n
‑
gram项的tf
‑
idf值;采用截断的奇异值分解算法对n元特征向量进行降维处理。3.根据权利要求2所述的基于多算法结合的入侵检测方法,其特征在于, 在将系统调用跟踪文件转换为n元特征向量过程中,n
‑
gram项的tf值为给定n
‑
gram项的术语频率除以给定文档中所有唯一n
‑
gram项的术语频率的总和;n
‑
gram项的idf值的计算公式为:其中N是语料库中文档的总数,df是给定n
‑
gram术语的文档频率。4.一种基于多算法结合的入侵检测装置,其特征在于,包括:数据采集模块,用于采集用于入侵检测的原始数据;数据预处理模块,用于采用TF
‑
IDF算法和奇异值分解算法对原始数据进行预处理;数据集划分模块,用于将预处理后的数据按照7比3的比例分为训练数据集和测试数据集;分类器建立模块,用于基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:
为训练数据点,为训练数据点的类型,=0表示数据点属于正常类,=1表示攻击类;模型训练模块,用于将训练数据集数据输入SVM分类器进行模型训练,并采用测试数据集进行SVM分类器的效果检测;所述输入SVM分类器进行模型训练的训练数据集表示为:其中N是语料库中文档的总数;入侵检测模块,用于利用训练及测试后的SVM分类器进行入侵检测。5.根据权利要求4所述的基于多算法结合的入侵检测装置,其特征在于,所述数据预处理模块,包括:语料库建立模块,用于建立系统调用跟踪文件的语料库;所述系统调用跟踪文件包括供系统调用的正常跟踪文件和异常跟踪文件;术语调用模块,用于调用语料库中所有系统调用跟踪文件唯一的n
‑
gram术语;文件转换模块,用于将系统调用跟踪文件转换为n元特征向量,其中...
【专利技术属性】
技术研发人员:罗远哲,李雪茹,吴鹏,李玉琼,闫鹿博,于文志,姜传利,宋桂斌,林文强,
申请(专利权)人:山东万里红信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。