一种基于1D分组卷积神经网络的数据重构方法技术

技术编号:29615535 阅读:20 留言:0更新日期:2021-08-10 18:31
本发明专利技术公开了一种基于1D分组卷积神经网络的数据重构方法。该方法数据分组、模型的构建与训练优化以及数据重构。计算数据特征之间的相关性并降序排列,然后依据相关性对数据进行分组,输入分组卷积神经网络中进行分组运算,再通过全连接层的全局卷积操作和拼接层的特征拼接,输出重构特征,实现任意维度的特征重构。得到的重构特征维度降低,并且模型的空间复杂度和时间复杂度都有所下降,因此可以减少时间,降低内存资源占用。本方法,在分组时利用了特征之间的相关性,提高了重构特征之间的相关性;通过对数据分组,可以控制重构特征的维度,实现数据降维,不仅简化了深度学习的运算过程,还提高了模型的运算效率。

【技术实现步骤摘要】
一种基于1D分组卷积神经网络的数据重构方法
本专利技术涉及网络安全大数据分析和建模领域,尤其是涉及到一种基于1D分组卷积神经网络的数据重构方法。
技术介绍
网络空间中存在各种各样的网络攻击方式,比如恶意代码、钓鱼邮件和网站、流量攻击、漏洞利用等,这些攻击不仅会造成巨大的经济损失,甚至会威胁国家安全和社会稳定,因此对网络威胁进行检测是很有必要的。在检测的过程中,需要采集大量的网络数据,比如恶意软件、钓鱼邮件、网络流量、系统日志等,构建传统的机器学习模型分析这些数据已经难以取得较好的效果。随着深度学习、人工智能计算的不断发展,以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用,将深度学习技术应用于网络空间威胁检测方面,是一种实现网络安全数据分类,提高网络威胁检测的有效方法。深度学习技术包括多种算法,比如卷积神经网络(CNN)、循环神经网络(RNN)、对抗神经网络(GAN)等,其中,CNN算法利用卷积层的非线性运算,对数据特征进行学习和重新表征,利用池化层的压缩运算,减少数据特征的维度,因此,CNN算法能够用于处理网络安全数据。根据处理数据类型的不同,CNN算法可以构建1D-CNN模型和2D-CNN模型。比如,在处理序列信号数据和自然语言时,构建1D-CNN模型,在处理图像、视频数据时,构建2D-CNN模型。将2D-CNN模型用于网络安全数据进行分类时,首先需要将数据转换为图像格式然后再进行处理,在处理过程中存在运算过程复杂、运算量大的缺陷。
技术实现思路
针对现有技术的不足,本专利技术提出了一种基于1D分组卷积神经网络的数据重构方法,在预处理阶段利用数据特征之间的相关性,对高维数据进行分组,然后构建1D分组CNN深层模型,针对每组数据采用一组卷积核和池化核进行运算,利用神经元的非线性特性重构原始的安全数据特征,最后将分组重构的数据进行拼接,形成完整的重构数据,降低数据的维度。一种基于1D分组卷积神经网络的数据重构方法,该方法具体包括以下步骤:步骤一、构造数据集对原始安全数据进行One-hot编码,构建尺寸为N*D的训练集X,其中N为训练集的样本数,D表示训练集维度;Y为训练集X对应的真实类别标签集合。步骤二、数据分组计算训练集X的D个特征之间的相关性,形成相关性矩阵R,任意取一组数据Rn作为分组依据,对Rn中的D个相关性系数进行降序排列,按照降序的相关性系数将训练集X分为T组,第t组特征数据Xt包含D/T个特征,其中n=1,2,...N,t=1,2,...T。t越小,表示Xt组内的数据相关性越强,反之则组内相关性越弱。步骤三、构建1D分组CNN算法模型构建1D分组CNN算法模型,用于对输入的分组数据集进行重构、降维,模型包括1个输入层、L个卷积层、L个池化层、1个全连接层、1个拼接层和1个Softmax层。输入层包含T组数据输入,每个卷积层包含T组卷积运算,每组卷积运算中有M个卷积核,每个池化层包含T组池化运算,每组池化运算中有M个池化核。所述输入层,用于T组数据Xt的输入。所述L个卷积层,第一个卷积层的输入与输入层相连,经过非线性激活函数ReLU(·)输出后与第一个池化层相连,第l+1个卷积层的输入与第l个池化层相连,输出经过非线性激活函数ReLU(·)后与第l+1个池化层相连,其中l=1,2...L。在每组卷积运算中,T组数据分别与M个卷积核进行卷积运算,得到卷积特征图。所述L个池化层,其中,第L个池化层的输出经过非线性激活函数ReLU(·)后与全连接层的输入相连。池化层采用最大值池化的方式,对卷积层的输出进行最大化下采样,形成池化特征图。所述全连接层的输入与第L个池化层的输出相连,对每组池化特征图进行全局卷积运算,得到T组重构特征Xt′。所述拼接层,将全连接层的T组输出进行拼接,输出得到重构特征数据X′。步骤四、模型的训练、优化将步骤三得到的重构特征数据X′输入到softmax层中,得到重构特征数据的预测类别标签Y′,将预测的样本类别标签Y′与真实的类别标签Y相比,基于交叉熵损失函数定义1D分组CNN算法模型的损失函数Loss,循环训练F次并采用Adam优化函数将损失函数Loss优化到最小值,完成义1D分组CNN算法模型的优化。作为优选,F=1000。步骤五、完成数据重构将训练集X输入步骤四优化得到的1D分组CNN模型,从模型的拼接层输出得到得到的尺寸为N×D′重构特征矩阵X′,其中D′≤D,表示重构矩阵的维度低于原始数据矩阵,即1D分组CNN模型实现重构矩阵对原始矩阵的降维。本专利技术具有以下有益效果:(1)计算原始数据特征之间的相关性,然后按照相关性降序排列,对数据进行分组,这会使得有些分组内的特征相关性更强,有些分组内的特征相关性更弱,再将分组后的数据输入到卷积神经网络中,利用分组特征增强重构特征数据间的关联性。(2)根据输入数据的1D结构,构建1D分组CNN模型,该模型针对分组数据,对每一层卷积层和池化层进行分组,每组卷积和池化包含多个卷积核核池化核,分别对每组数据进行卷积操作和池化操作。相比于不分组的数据运算过程,分组运算能够降低计算的时间复杂度和空间复杂度,可以减少参数与运算时间,提高重构效率。(3)经过1D分组CNN的卷积操作、池化操作和全连接层的卷积操作,能够控制重构特征的维度,当维度低于原始数据维度时,实现了数据的降维,也使得CNN的Loss更低。附图说明图1为基于1D分组卷积神经网络的数据重构方法流程图。具体实施方式以下结合附图对本专利技术作进一步的解释说明;如图1所示,基于1D分组卷积神经网络的数据重构方法包括数据分组、模型构建、训练优化以及数据重构,具体过程如下:步骤一、构建数据集对原始安全数据进行One-hot编码,构建尺寸为N*D的训练集X,其中N为数据集的样本数,D表示数据集维度;Y为训练集X对应的真实类别标签集合。步骤二、数据分组计算训练集X的D个特征之间的相关性,形成相关性矩阵R,取一组数据Rn将其中的D个相关性系数按降序进行排列,根据Rn中排序后的相关性系数将训练集X分为T组,第t组特征数据Xt包含D/T个特征,其中n=1,2,...N,t=1,2,...T。步骤三:构建1D分组CNN算法模型构建1D分组CNN算法模型,用于对输入的分组数据集进行重构、降维,模型包括1个输入层、L个卷积层、L个池化层、1个全连接层、1个拼接层和1个Softmax层。输入层包含T组数据输入;每个卷积层包含T组卷积运算,每组卷积运算中有M个卷积核;每个池化层包含T组池化运算,每组池化运算中有M个池化核。所述输入层,用于T组数据的输入。所述L个卷积层,第一个卷积层的输入与输入层的输出相连,经过非线性激活函数ReLU(·)输出后与第一个池化层的输入相连,第l+1个卷积层的输入与第l个池化层的输出相连,输出经过非线性激活函数ReLU(·本文档来自技高网...

【技术保护点】
1.一种基于1D分组卷积神经网络的数据重构方法,其特征在于:该方法具体包括以下步骤:/n步骤一、构造数据集/n对原始安全数据进行One-hot编码,构建尺寸为N*D的训练集X,其中N为训练集的样本数,D表示训练集维度;Y为训练集X对应的真实类别标签集合;/n步骤二、数据分组/n计算训练集X的D个特征之间的相关性,形成相关性矩阵R,取一组数据R

【技术特征摘要】
1.一种基于1D分组卷积神经网络的数据重构方法,其特征在于:该方法具体包括以下步骤:
步骤一、构造数据集
对原始安全数据进行One-hot编码,构建尺寸为N*D的训练集X,其中N为训练集的样本数,D表示训练集维度;Y为训练集X对应的真实类别标签集合;
步骤二、数据分组
计算训练集X的D个特征之间的相关性,形成相关性矩阵R,取一组数据Rn将其中的D个相关性系数按降序进行排列,根据Rn中排序后的相关性系数将训练集X分为T组,第t组特征数据Xt包含D/T个特征,其中n=1,2,...N,t=1,2,...T;
步骤三、构建1D分组CNN算法模型
构建1D分组CNN算法模型,用于对输入的分组数据集进行重构、降维,模型包括1个输入层、L个卷积层、L个池化层、1个全连接层、1个拼接层和1个Softmax层;
所述输入层,用于T组数据的输入;
所述L个卷积层,每个卷积层包含T组卷积运算,每组卷积运算中有M个卷积核,第一个卷积层的输入与输入层的输出相连,经过非线性激活函数ReLU(·)输出后与第一个池化层的输入相连;第l+1个卷积层的输入与第l个池化层的输出相连,输出经过非线性激活函数ReLU(·)后与第l+1个池化层的输入相连,其中l=1,2...L;在每组卷积运算中,T组数据分别与M个卷积核进行卷积运算,得到卷积特征图;
所述L个池化层,每个池化层包含T组池化运算,每组池化运算中有M个池化核;其中,第L个池化层的输出经过非线性激活函数ReLU(·)后与全连接层的输入相连;池化层采用最大值池化的方式,对卷积层的输出进行最大化下采样,形成池化特征图;
所述全连...

【专利技术属性】
技术研发人员:许艳萍章霞裘振亮叶挺聪仇建张桦吴以凡张灵均陈政
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1