基于多算法结合的入侵检测方法、装置及计算机设备制造方法及图纸

技术编号:38823584 阅读:17 留言:0更新日期:2023-09-15 20:02
本发明专利技术公开了一种基于多算法结合的入侵检测方法、装置及计算机设备,属于计算机网络安全技术领域,方法包括以下步骤:采集用于入侵检测的原始数据;采用TF

【技术实现步骤摘要】
基于多算法结合的入侵检测方法、装置及计算机设备


[0001]本专利技术涉及一种基于多算法结合的入侵检测方法、装置及计算机设备,属于计算机网络安全


技术介绍

[0002]近年来,数据泄露和恶意攻击已经成为许多企业关注的主要问题。计算机网络安全问题愈发严重,为避免造成数据的泄露及丢失,计算机的入侵检测技术尤为关键,按照数据源可分为基于网络和基于主机的入侵检测方法(HIDS)。
[0003]其中基于主机的入侵检测方法能有效的检测来自内部的攻击,但是目前许多HIDS框架不考虑跟踪文件中系统调用的相对顺序进行分析。因此,当侵入性进程的系统调用模式与正常进程的系统调用模式交错时,这些HIDS框架就不能很好地执行。其次考虑跟踪文件中系统调用的顺序信息来识别异常进程,这些框架中使用的特征向量长度非常大。这将导致较高的处理开销,使它们不适合实时部署。此外,基于一般机器学习算法的模型的HIDS框架虽然已被证明表现良好。但它们具有较高的复杂性和虚警率的缺陷仍然无法忽视。
[0004]为了应对上述问题,本申请设计一种基于tfidfvectorizer算法和奇异值分解的数据预处理方式以及改进机器学习算法建模结合的主机入侵检测方法。

技术实现思路

[0005]为了解决上述问题,本专利技术提出了一种基于多算法结合的入侵检测方法、装置及计算机设备,能够解决传统入侵检测技术存在误报率高、检测效率低下的问题。
[0006]本专利技术解决其技术问题采取的技术方案是:第一方面,本专利技术实施例提供的一种基于多算法结合的入侵检测方法,包括以下步骤:采集用于入侵检测的原始数据;采用TF

IDF算法和奇异值分解算法对原始数据进行预处理;将预处理后的数据按照7比3的比例分为训练数据集和测试数据集;基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:为训练数据点,为训练数据点的类型,=0表示数据点属于正常类,=1表示攻击类;将训练数据集数据输入SVM分类器进行模型训练,并采用测试数据集进行SVM分类器的效果检测;所述输入SVM分类器进行模型训练的训练数据集表示为:其中N是语料库中文档的总数;利用训练及测试后的SVM分类器进行入侵检测。
[0007]作为本实施例一种可能的实现方式,所述原始数据包括:用户输入信息、网络流量和数据库访问日志。
[0008]作为本实施例一种可能的实现方式,所述采用TF

IDF算法和奇异值分解算法对原始数据进行预处理,包括:建立系统调用跟踪文件的语料库;所述系统调用跟踪文件包括供系统调用的正常跟踪文件和异常跟踪文件;调用语料库中所有系统调用跟踪文件唯一的n

gram术语;将系统调用跟踪文件转换为n元特征向量,其中,转换后的n元特征向量的每个元素对应于前面标识的n

gram项的tf

idf值;采用截断的奇异值分解算法对n元特征向量进行降维处理。
[0009]作为本实施例一种可能的实现方式,在将系统调用跟踪文件转换为n元特征向量过程中,n

gram项的tf值为给定n

gram项的术语频率除以给定文档中所有唯一n

gram项的术语频率的总和;n

gram项的idf值的计算公式为:其中N是语料库中文档的总数,df是给定n

gram术语的文档频率(文档频率就是包含给定n

gram术语的语料库中的文档数量)。
[0010]第二方面,本专利技术实施例提供的一种基于多算法结合的入侵检测装置,包括:数据采集模块,用于采集用于入侵检测的原始数据;数据预处理模块,用于采用TF

IDF算法和奇异值分解算法对原始数据进行预处理;数据集划分模块,用于将预处理后的数据按照7比3的比例分为训练数据集和测试数据集;分类器建立模块,用于基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:的表达式为:为训练数据点,为训练数据点的类型,=0表示数据点属于正常类,=1表示攻击类;模型训练模块,用于将训练数据集数据输入SVM分类器进行模型训练,并采用测试数据集进行SVM分类器的效果检测;所述输入SVM分类器进行模型训练的训练数据集表示为:其中N是语料库中文档的总数;入侵检测模块,用于利用训练及测试后的SVM分类器进行入侵检测。
[0011]作为本实施例一种可能的实现方式,所述数据预处理模块,包括:
语料库建立模块,用于建立系统调用跟踪文件的语料库;所述系统调用跟踪文件包括供系统调用的正常跟踪文件和异常跟踪文件;术语调用模块,用于调用语料库中所有系统调用跟踪文件唯一的n

gram术语;文件转换模块,用于将系统调用跟踪文件转换为n元特征向量,其中,转换后的n元特征向量的每个元素对应于前面标识的n

gram项的tf

idf值;降维处理模块,用于采用截断的奇异值分解算法对n元特征向量进行降维处理。
[0012]第三方面,本专利技术实施例提供的一种基于多算法结合的入侵检测方法,包括以下步骤:采集用于入侵检测的原始数据,并对原始数据进行预处理;采用TF

IDF算法和奇异值分解算法对预处理后数据进行处理,生成数据集;将数据集按照7比3的比例分为训练数据集和测试数据集;基于改进的机器学习算法建立SVM分类器;将训练数据集数据输入SVM分类器进行模型训练,并采用测试数据集进行SVM分类器的效果检测;利用训练及测试后的SVM分类器进行入侵检测。
[0013]作为本实施例一种可能的实现方式,所述对原始数据进行预处理,包括:对原始数据进行清洗处理,去除无用的信息和标点符号,将文本转换为小写并去除停用词,对于数字数据进行归一化标准处理;使用NLTK自然语言处理库对文本进行分词,并使用停用词列表来移除无用的词语;使用Word embeddings语义表示方法对描述性文本(如文本分类任务)提取语义信息。
[0014]作为本实施例一种可能的实现方式,所述采用TF

IDF算法和奇异值分解算法对预处理后数据进行处理,包括:建立系统调用跟踪文件的语料库;所述系统调用跟踪文件包括供系统调用的正常跟踪文件和异常跟踪文件;调用语料库中所有系统调用跟踪文件唯一的n

gram术语;将系统调用跟踪文件转换为n元特征向量,其中,转换后的n元特征向量的每个元素对应于前面标识的n

gram项的tf

idf值;采用截断的奇异值分解算法对n元特征向量进行降维处理。
[0015]作为本实施例一种可能的实现方式,在将系统调用跟踪文件转换为n元特征向量过程中,n

gram项的tf值为给定n

gram项的术语频率除以给定文档中所有唯一n
‑<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多算法结合的入侵检测方法,其特征在于,包括以下步骤:采集用于入侵检测的原始数据;采用TF

IDF算法和奇异值分解算法对原始数据进行预处理;将预处理后的数据按照7比3的比例分为训练数据集和测试数据集;基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:为训练数据点,为训练数据点的类型,=0表示数据点属于正常类,=1表示攻击类;将训练数据集数据输入SVM分类器进行模型训练,并采用测试数据集进行SVM分类器的效果检测;所述输入SVM分类器进行模型训练的训练数据集表示为:其中N是语料库中文档的总数;利用训练及测试后的SVM分类器进行入侵检测。2.根据权利要求1所述的基于多算法结合的入侵检测方法,其特征在于,所述采用TF

IDF算法和奇异值分解算法对原始数据进行预处理,包括:建立系统调用跟踪文件的语料库;所述系统调用跟踪文件包括供系统调用的正常跟踪文件和异常跟踪文件;调用语料库中所有系统调用跟踪文件唯一的n

gram术语;将系统调用跟踪文件转换为n元特征向量,其中,转换后的n元特征向量的每个元素对应于前面标识的n

gram项的tf

idf值;采用截断的奇异值分解算法对n元特征向量进行降维处理。3.根据权利要求2所述的基于多算法结合的入侵检测方法,其特征在于, 在将系统调用跟踪文件转换为n元特征向量过程中,n

gram项的tf值为给定n

gram项的术语频率除以给定文档中所有唯一n

gram项的术语频率的总和;n

gram项的idf值的计算公式为:其中N是语料库中文档的总数,df是给定n

gram术语的文档频率。4.一种基于多算法结合的入侵检测装置,其特征在于,包括:数据采集模块,用于采集用于入侵检测的原始数据;数据预处理模块,用于采用TF

IDF算法和奇异值分解算法对原始数据进行预处理;数据集划分模块,用于将预处理后的数据按照7比3的比例分为训练数据集和测试数据集;分类器建立模块,用于基于改进的机器学习算法建立SVM分类器;所述SVM分类器的表达式为:
为训练数据点,为训练数据点的类型,=0表示数据点属于正常类,=1表示攻击类;模型训练模块,用于将训练数据集数据输入SVM分类器进行模型训练,并采用测试数据集进行SVM分类器的效果检测;所述输入SVM分类器进行模型训练的训练数据集表示为:其中N是语料库中文档的总数;入侵检测模块,用于利用训练及测试后的SVM分类器进行入侵检测。5.根据权利要求4所述的基于多算法结合的入侵检测装置,其特征在于,所述数据预处理模块,包括:语料库建立模块,用于建立系统调用跟踪文件的语料库;所述系统调用跟踪文件包括供系统调用的正常跟踪文件和异常跟踪文件;术语调用模块,用于调用语料库中所有系统调用跟踪文件唯一的n

gram术语;文件转换模块,用于将系统调用跟踪文件转换为n元特征向量,其中...

【专利技术属性】
技术研发人员:罗远哲李雪茹吴鹏李玉琼闫鹿博于文志姜传利宋桂斌林文强
申请(专利权)人:山东万里红信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1