一种基于神经网络的恶意程序检测方法和系统技术方案

技术编号:35567047 阅读:14 留言:0更新日期:2022-11-12 15:50
本发明专利技术提供一种基于神经网络的恶意程序检测方法和系统,通过从报文载荷部分提取握手原始字节、记录长度序列、IP地址和端口若干特征,构建远近流量矩阵图,将其中相连节点的特征向量与词分量一起识别是否为攻击,克服了现有技术在多样化网络环境中难以区分正常流量与恶意流量的问题;通过调用句法模型和语义分析模型,可以自动化完成数据流的断句和冗余过滤,实现了特征提取的自动化;通过卷积神经网络和随机森林分类,可以进一步突出所需的特征向量,整合了不同的分类能力。整合了不同的分类能力。整合了不同的分类能力。

【技术实现步骤摘要】
一种基于神经网络的恶意程序检测方法和系统


[0001]本申请涉及网络安全
,尤其涉及一种基于神经网络的恶意程序检测方法和系统。

技术介绍

[0002]现有的恶意检测方法常见是对数据流的孤立分析或聚合分析,往往忽略了流量之间丰富的相互关系。流量之间通常都是与业务或行为相关联,而极其多样化的业务或行为经常会使得正常流量与恶意流量看起来非常相似,常见的检测方法效果难以保证。
[0003]我们注意到,业务或行为都是具有高度相关性的,恶意程序即使利用业务或行为的一个片段进行模仿或篡改,也很难保持这种高相关性。利用这种高度相关性进行检测将会取得非常不错的效果。
[0004]因此,急需一种针对性的基于神经网络的恶意程序检测方法和系统。

技术实现思路

[0005]本专利技术的目的在于提供一种基于神经网络的恶意程序检测方法和系统,解决现有技术在多样化网络环境中难以区分正常流量与恶意流量的问题。
[0006]第一方面,本申请提供一种基于神经网络的恶意程序检测方法,所述方法包括:
[0007]采集终端访问网络应用的数据流,从所述数据流中提取报文头部字段内容,识别出使用所述终端的客户端,为每一个客户端生成一个单独的标识符;
[0008]从报文载荷部分提取握手原始字节、记录长度序列、IP地址和端口若干特征,根据业务和行为的关联规则,计算所述若干特征之间的相关度,以此构建远近流量矩阵图;
[0009]按照时域连续性采样所述数据流,得到降维后的离散数据流;
[0010]获取所述离散数据流,调用服务器的句法模型,进行断句,得到第一词分量;
[0011]将所述第一词分量,逐个输入服务器的语义分析模型,接收返回的所述第一词分量对应的词含义;
[0012]根据第一规则从词含义中过滤冗余信息,得到过滤后对应的第二词分量,将所述远近流量矩阵图中相连节点的特征向量和第二词分量一起输入矩阵模板,得到第一词分量矩阵;所述相连节点是指共享相同目的IP地址或目的端口,或共享相同的行为模式的节点;
[0013]将所述第一词分量矩阵输入到识别模型的输入层,计算出不同词类的标准差,所述标准差用于确定后续卷积层的滑动窗口的宽度大小;所述识别模型为基于随机森林和卷积神经网络的模型架构;
[0014]所述输入层的输出送入所述识别模型的卷积层中,利用不同大小的滑动窗口来选择文本中的局部词分量,拼接局部词分量得到第二词分量矩阵,将所述第二词分量矩阵送入所述识别模型的池化层;
[0015]所述池化层通过选择池化函数来选择区分所述词含义有效的特征值,再次拼接得到第三词分量矩阵;
[0016]将完成上述处理的第三词分量矩阵传输到所述识别模型的随机森林中进行分类,随机森林把所述第三词分量矩阵进行n轮抽取,得到n个训练集,使用抽取的n个训练集由列采样随机使用指定量特征值训练得到n棵决策树,所述n棵决策树按照投票的方式得到分类结果;
[0017]根据所述分类结果判断所述采集终端发送的数据流是否包括攻击向量,如果包括攻击向量则阻断该数据流,反之则允许该数据流。
[0018]第二方面,本申请提供一种基于神经网络的恶意程序检测系统,所述系统包括:
[0019]采集模块,用于采集终端访问网络应用的数据流,从所述数据流中提取报文头部字段内容,识别出使用所述终端的客户端,为每一个客户端生成一个单独的标识符;
[0020]构建模块,用于从报文载荷部分提取握手原始字节、记录长度序列、IP地址和端口若干特征,根据业务和行为的关联规则,计算所述若干特征之间的相关度,以此构建远近流量矩阵图;按照时域连续性采样所述数据流,得到降维后的离散数据流;
[0021]语义模块,用于获取所述离散数据流,调用服务器的句法模型,进行断句,得到第一词分量;将所述第一词分量,逐个输入服务器的语义分析模型,接收返回的所述第一词分量对应的词含义;根据第一规则从词含义中过滤冗余信息,得到过滤后对应的第二词分量,将所述远近流量矩阵图中相连节点的特征向量和第二词分量一起输入矩阵模板,得到第一词分量矩阵;所述相连节点是指共享相同目的IP地址或目的端口,或共享相同的行为模式的节点;
[0022]识别模块,包括识别模型,所述识别模型为基于随机森林和卷积神经网络的模型架构,用于接收AI模块输出的所述第一词分量矩阵,输入到识别模型的输入层,计算出不同词类的标准差,所述标准差用于确定后续卷积层的滑动窗口的宽度大小;所述输入层的输出送入所述识别模型的卷积层中,利用不同大小的滑动窗口来选择文本中的局部词分量,拼接局部词分量得到第二词分量矩阵,将所述第二词分量矩阵送入所述识别模型的池化层;所述池化层通过选择池化函数来选择区分所述词含义有效的特征值,再次拼接得到第三词分量矩阵;
[0023]将完成上述处理的第三词分量矩阵传输到所述识别模型的随机森林中进行分类,随机森林把所述第三词分量矩阵进行n轮抽取,得到n个训练集,使用抽取的n个训练集由列采样随机使用指定量特征值训练得到n棵决策树,所述n棵决策树按照投票的方式得到分类结果;
[0024]执行模块,用于根据所述分类结果判断所述采集终端发送的数据流是否包括攻击向量,如果包括攻击向量则阻断该数据流,反之则允许该数据流。
[0025]第三方面,本申请提供一种基于神经网络的恶意程序检测系统,所述系统包括处理器以及存储器:
[0026]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0027]所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
[0028]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的方法。
[0029]有益效果
[0030]本专利技术提供一种基于神经网络的恶意程序检测方法和系统,通过从报文载荷部分提取握手原始字节、记录长度序列、IP地址和端口若干特征,构建远近流量矩阵图,将其中相连节点的特征向量与词分量一起识别是否为攻击,克服了现有技术在多样化网络环境中难以区分正常流量与恶意流量的问题;通过调用句法模型和语义分析模型,可以自动化完成数据流的断句和冗余过滤,实现了特征提取的自动化;通过卷积神经网络和随机森林分类,可以进一步突出所需的特征向量,整合了不同的分类能力。
附图说明
[0031]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本专利技术基于神经网络的恶意程序检测方法的大致流程图;
[0033]图2为本专利技术基于神经网络的恶意程序检测系统的架构图。
具体实施方式
[0034]下面结合附图对本专利技术的优选实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的恶意程序检测方法,其特征在于,所述方法包括:采集终端访问网络应用的数据流,从所述数据流中提取报文头部字段内容,识别出使用所述终端的客户端,为每一个客户端生成一个单独的标识符;从报文载荷部分提取握手原始字节、记录长度序列、IP地址和端口若干特征,根据业务和行为的关联规则,计算所述若干特征之间的相关度,以此构建远近流量矩阵图;按照时域连续性采样所述数据流,得到降维后的离散数据流;获取所述离散数据流,调用服务器的句法模型,进行断句,得到第一词分量;将所述第一词分量,逐个输入服务器的语义分析模型,接收返回的所述第一词分量对应的词含义;根据第一规则从词含义中过滤冗余信息,得到过滤后对应的第二词分量,将所述远近流量矩阵图中相连节点的特征向量和第二词分量一起输入矩阵模板,得到第一词分量矩阵;所述相连节点是指共享相同目的IP地址或目的端口,或共享相同的行为模式的节点;将所述第一词分量矩阵输入到识别模型的输入层,计算出不同词类的标准差,所述标准差用于确定后续卷积层的滑动窗口的宽度大小;所述识别模型为基于随机森林和卷积神经网络的模型架构;所述输入层的输出送入所述识别模型的卷积层中,利用不同大小的滑动窗口来选择文本中的局部词分量,拼接局部词分量得到第二词分量矩阵,将所述第二词分量矩阵送入所述识别模型的池化层;所述池化层通过选择池化函数来选择区分所述词含义有效的特征值,再次拼接得到第三词分量矩阵;将完成上述处理的第三词分量矩阵传输到所述识别模型的随机森林中进行分类,随机森林把所述第三词分量矩阵进行n轮抽取,得到n个训练集,使用抽取的n个训练集由列采样随机使用指定量特征值训练得到n棵决策树,所述n棵决策树按照投票的方式得到分类结果;根据所述分类结果判断所述采集终端发送的数据流是否包括攻击向量,如果包括攻击向量则阻断该数据流,反之则允许该数据流。2.根据权利要求1所述的方法,其特征在于:所述识别模型在训练时,通过反向的传播方式来最小化熵损失函数,避免过饱和,当所述识别模型的精度满足阈值的要求,则表明该识别模型训练完成。3.根据权利要求1所述的方法,其特征在于:所述每棵决策树的分类能力具有针对性,所述指定量特征值是根据不同分类得出的,将同一个特征向量矩阵通过决策树按照不同的角度进行分类,即完成针对不同分类能力的整合功能。4.根据权利要求2或3任一项所述的方法,其特征在于:所述投票的方式包括将每棵决策树的输出结果进行加权累加。5.一种基于神经网络的恶意程...

【专利技术属性】
技术研发人员:刘玉佳周瑞红侯小超
申请(专利权)人:北京国瑞数智技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1