【技术实现步骤摘要】
入侵检测方法、装置及存储介质
本专利技术涉及网络安全领域,尤其涉及一种入侵检测方法、装置及存储介质。
技术介绍
随着机器学习技术的不断发展,用于进行模型训练的数据本身质量对机器学习效果显得尤为重要。目前通过样本对入侵模型进行训练,然而不平衡的数据集训练出的模型很容易将量少的样本划分到量多样本的类别中,这就导致召回率和准确率往往比较低;另外,样本数据集中的大量复杂特征,给分类器的训练过程带来较大的复杂度。
技术实现思路
本专利技术的实施例提供一种样本采样方法、装置及存储介质,能够解决样本数量较少导致模型准确度低且训练复杂度高的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种入侵检测方法,包括:对初始样本集中的部分样本进行过采样操作,得到包含新样本及初始样本的训练样本集;对所述训练样本集中的各样本进行降维处理,得到各样本对应的一维距离特征;基于所述一维距离特征对所述训练样本集进行样本分类,得到各样本的分类结果;根据所述各样本的分类结果,对入侵检测模型进行训练。结合第一方面,在第一方面的第一种可能的实现方式中,所述对初始样本集中 ...
【技术保护点】
1.一种入侵检测方法,其特征在于,包括:对初始样本集中的部分样本进行过采样操作,得到包含新样本及初始样本的训练样本集;对所述训练样本集中的各样本进行降维处理,得到各样本对应的一维距离特征;基于所述一维距离特征对所述训练样本集进行样本分类,得到各样本的分类结果;根据所述各样本的分类结果,对入侵检测模型进行训练。
【技术特征摘要】
1.一种入侵检测方法,其特征在于,包括:对初始样本集中的部分样本进行过采样操作,得到包含新样本及初始样本的训练样本集;对所述训练样本集中的各样本进行降维处理,得到各样本对应的一维距离特征;基于所述一维距离特征对所述训练样本集进行样本分类,得到各样本的分类结果;根据所述各样本的分类结果,对入侵检测模型进行训练。2.根据权利要求1所述的入侵检测方法,其特征在于,所述对初始样本集中的部分样本进行过采样操作,得到包含新样本的训练样本集,包括:在所述初始样本集的各样本中筛选危险样本;对每个所述危险样本进行过采样操作,生成对应的新样本;将所述初始样本集中的各样本及各所述新样本,作为所述训练样本集。3.根据权利要求2所述的入侵检测方法,其特征在于,所述在所述初始样本集的各样本中筛选危险样本,包括:针对初始样本集中的每个所述样本,计算对应的最近邻样本数m及量多样本数m1;若满足m/2<m1<m,则所述样本为所述危险样本。4.根据权利要求1所述的入侵检测方法,其特征在于,所述对所述训练样本集中的各样本进行降维处理,得到各样本对应的一维距离特征,包括:对所述训练样本集中的各样本进行聚类处理,得到多个簇;针对所述训练样本集中的每个所述样本,计算所述样本的一维距离值;其中,所述一维距离值为第一和值与第二和值之前的和值,所述第一和值为所述样本与簇内各近邻样本之间的距离之和,所述第二和值为所述样本与各簇聚类中心之间的距离之和。5.根据权利要求4所述的入侵检测方法,其特征在于,所述方法还包括:当输入新样本时,计算该样本与各簇聚类中心之间的距离,并将所述新样本作为距离最小的簇中的一个样本;计算所述新样本的一维距离值,所述一维距离值为第一和值与第二和值之前的和值;其中,所述第一和值为所述新样本与簇内各近邻样本之间的距离之和,所述第二和值为所述新样本与各簇聚类中心之间的距离之和;将所述新样本的一维距离值与训练样本集的特征缩减值进行比较,得到所述新样本的分类结果。6.一种入侵检测装置,其特征在于,包括:采样模块...
【专利技术属性】
技术研发人员:龙春,魏金侠,万巍,赵静,杨帆,杜冠瑶,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。