基于核自编码器的模型训练方法、装置及存储介质制造方法及图纸

技术编号:26172803 阅读:25 留言:0更新日期:2020-10-31 13:52
本发明专利技术实施例公开了一种核自编码器的模型训练方法、装置及存储介质,涉及网络安全领域。本发明专利技术的方法包括:通过核自编码器的编码模块,基于核PCA对样本特征进行降维处理,得到样本数据对应的隐层数据,并将所述隐层数据作为分类器的输入数据;通过核自编码器的解码模块,基于核回归处理得到所述样本的解码数据,并将所述解码数据作为所述分类器的输出数据;基于所述输入数据和所述输出数据,构建所述分类器的损失函数;根据所述损失函数,对所述分类器进行训练。本发明专利技术能够降低对数据特征的降维复杂度。

【技术实现步骤摘要】
基于核自编码器的模型训练方法、装置及存储介质
本专利技术涉及网络安全领域,尤其涉及一种基于核自编码器的模型训练方法、装置及存储介质。
技术介绍
随着计算机网络技术的迅速发展,网络技术在各个领域都得到了广泛的应用。计算机网络在给人们提供便利、带来效益的同时,网络攻击也对信息安全提出了很大的挑战。为了防护网络攻击,可以通过入侵检测模型对网络流进行入侵预测。在模型训练过程中,样本数据原本的特征维度过高将导致计算复杂度大大增加,故而需要对样本特征进行降维处理。目前对样本特征进行降维处理的过程,直接将特征子集输入分类器,并根据分类器的性能对样本数据进行选择降维,这样的方式导致数据特征降维时的计算复杂度较高,进一步导致模型训练复杂度较高。
技术实现思路
本专利技术的实施例提供一种基于核自编码器的模型训练方法、装置及存储介质,能够降低对数据特征的降维复杂度。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种基于核自编码器的模型训练方法,包括:通过核自编码器的编码模块,基于核PCA对样本特征进行降维处理,得到样本数据对应的隐层数据,并将所述隐层数据作为分类器的输入数据;通过核自编码器的解码模块,基于核回归处理得到所述样本的解码数据,并将所述解码数据作为所述分类器的输出数据;基于所述输入数据和所述输出数据,构建所述分类器的损失函数;根据所述损失函数,对所述分类器进行训练。结合第一方面,在第一方面的第一种可能的实现方式中,所述基于所述输入数据和所述输出数据,构建所述分类器的损失函数,包括:计算所述输入数据和所述输出数据之间的差值;将所述差值的模值,与正则化项相加,得到所述分类器的损失函数。结合第一方面,或者第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,其特征在于,所述根据所述损失函数,对所述分类器进行训练,包括:基于正则化结构风险最小化策略,将所述损失函数的值取最小值,对所述分类器进行训练。结合第一方面,在第一方面的第三种可能的实现方式中,所述方法还包括:当样本特征维度大于80维时,基于核PCA对样本特征进行降维处理后的特征维度小于原特征维度的三分之一;或,当样本特征维度小于或等于80维时,基于核PCA对样本特征进行降维处理后的特征维度小于原特征维度的二分之一。结合第一方面,在第一方面的第四种可能的实现方式中,所述分类器用于进行网络入侵检测,所述方法还包括:将网络流量输入所述分类器,进行网络安全入侵检测;响应于检测到存在入侵风险,截断当前网络流量并启动相应的入侵修复方案。第二方面,本专利技术的实施例提供一种基于核自编码器的模型训练装置,包括:编码模块,用于通过核自编码器的编码模块,基于核PCA对样本特征进行降维处理,得到样本数据对应的隐层数据,并将所述隐层数据作为分类器的输入数据;解码模块,用于通过核自编码器的解码模块,基于核回归处理得到所述样本的解码数据,并将所述解码数据作为所述分类器的输出数据;构建模块,用于基于所述输入数据和所述输出数据,构建所述分类器的损失函数;训练模块,用于根据所述损失函数,对所述分类器进行训练。结合第二方面,在第二方面的第一种可能的实现方式中,所述构建模块,还用于计算所述输入数据和所述输出数据之间的差值;并将所述差值的模值,与正则化项相加,得到所述分类器的损失函数。结合第二方面,或者的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述训练模块,还用于基于正则化结构风险最小化策略,将所述损失函数的值取最小值,对所述分类器进行训练。结合第二方面,在第二方面的第三种可能的实现方式中,所述编码模块,还用于当样本特征维度大于80维时,基于核PCA对样本特征进行降维处理后的特征维度小于原特征维度的三分之一;或,当样本特征维度小于或等于80维时,基于核PCA对样本特征进行降维处理后的特征维度小于原特征维度的二分之一。结合第二方面,在第二方面的第四种可能的实现方式中,所述装置还包括:所述训练模块训练的所述分类器用于进行网络入侵检测;检测模块,用于将网络流量输入所述分类器,进行网络安全入侵检测;并且,响应于检测到存在入侵风险,截断当前网络流量并启动相应的入侵修复方案。第三方面,本专利技术的实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现第一方面提供的方法的步骤。本专利技术实施例提供的基于核自编码器的模型训练方法、装置及存储介质,通过核自编码器的编码模块,基于核PCA对样本特征进行降维处理,得到样本数据对应的隐层数据,并将所述隐层数据作为分类器的输入数据;通过核自编码器的解码模块,基于核回归处理得到所述样本的解码数据,并将所述解码数据作为所述分类器的输出数据;基于所述输入数据和所述输出数据,构建所述分类器的损失函数;根据所述损失函数,对所述分类器进行训练。能够引入核方法,通过构建的核自编码器对数据特征进行降维处理,这样可以避免对高维特征的降维需求而导致对分类器进行多次训练的情况,可以降低对数据特征的降维复杂度,进一步可以降低模型训练的复杂度;同时,该降维方式考虑到特征之间的线性联系及非线性联系,因此降维后的数据特征能够更好地表达数据的原始特征。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例的基于核自编码器的模型训练方法的流程示意图;图2是本专利技术实施例的基于核自编码器的模型训练方法的另一流程示意图;图3是本专利技术实施例的基于核自编码器的模型训练装置结构示意图;图4是本专利技术实施例的基于核自编码器的模型训练装置的另一结构示意图;图5是本专利技术实施例的基于核自编码器的模型训练装置500的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术一实施例提供一种基于核自编码器的模型训练方法,如图1所示,所述方法包括:101、通过核自编码器的编码模块,基于核PCA对样本特征进行降维处理,得到样本数据对应的隐层数据,并将所述隐层数据作为分类器的输入数据。对于本专利技术实施例,在核自编码器中通过核PCA(PrincipalComponentAnalysis,主成分分析法)实现对样本的高维特征的降维处理,可以避免通过样本数据原始的高维特征对模型进行训练时导致的计算复本文档来自技高网...

【技术保护点】
1.一种基于核自编码器的模型训练方法,其特征在于,包括:/n通过核自编码器的编码模块,基于核PCA对样本特征进行降维处理,得到样本数据对应的隐层数据,并将所述隐层数据作为分类器的输入数据;/n通过核自编码器的解码模块,基于核回归处理得到所述样本的解码数据,并将所述解码数据作为所述分类器的输出数据;/n基于所述输入数据和所述输出数据,构建所述分类器的损失函数;/n根据所述损失函数,对所述分类器进行训练。/n

【技术特征摘要】
1.一种基于核自编码器的模型训练方法,其特征在于,包括:
通过核自编码器的编码模块,基于核PCA对样本特征进行降维处理,得到样本数据对应的隐层数据,并将所述隐层数据作为分类器的输入数据;
通过核自编码器的解码模块,基于核回归处理得到所述样本的解码数据,并将所述解码数据作为所述分类器的输出数据;
基于所述输入数据和所述输出数据,构建所述分类器的损失函数;
根据所述损失函数,对所述分类器进行训练。


2.根据权利要求1所述的基于核自编码器的模型训练方法,其特征在于,所述基于所述输入数据和所述输出数据,构建所述分类器的损失函数,包括:
计算所述输入数据和所述输出数据之间的差值;
将所述差值的模值,与正则化项相加,得到所述分类器的损失函数。


3.根据权利要求1或2所述的基于核自编码器的模型训练方法,其特征在于,所述根据所述损失函数,对所述分类器进行训练,包括:
基于正则化结构风险最小化策略,将所述损失函数的值取最小值,对所述分类器进行训练。


4.根据权利要求1所述的基于核自编码器的模型训练方法,其特征在于,所述方法还包括:
当样本特征维度大于80维时,基于核PCA对样本特征进行降维处理后的特征维度小于原特征维度的三分之一;或,
当样本特征维度小于或等于80维时,基于核PCA对样本特征进行降维处理后的特征维度小于原特征维度的二分之一。


5.根据权利要求1所述的基于核自编码器的模型训练方法,其特征在于,所述分类器用于进行网络入侵检测,所述方法还包括:
将网络流量输入所述分类器,进行网络安全入侵检测;
响应于检测到存在入侵风险,截断当前网络流量并启动相应的入侵修复方案。


6.一种基于核自编码器的模型训练装置,其特征在于,包括:
编码...

【专利技术属性】
技术研发人员:龙春肖喜生魏金侠赵静杨帆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1