当前位置: 首页 > 专利查询>南开大学专利>正文

基于统计学习的恶意代码多模型交叉检测方法技术

技术编号:19823216 阅读:81 留言:0更新日期:2018-12-19 15:13
本发明专利技术提出了一种基于统计学习的恶意代码多模型交叉检测方法,可较好地应用于在恶意代码检测领域。该方法引入可信度,解决各个机器学习模型彼此孤立的问题,提供一个机器学习模型间互相学习的平台。另外,在细粒度的统计学习平台上,多个机器学习模型从不同角度统计分析恶意代码的变异过程,缓解单一模型的退化问题,并使用APV算法来识别概念漂移现象,从而实现多模型共同防御。

【技术实现步骤摘要】
基于统计学习的恶意代码多模型交叉检测方法
本专利技术属于计算机防病毒

技术介绍
人工分析已经难以及时分析如此海量的新增恶意代码,因此机器学习技术已经广泛的应用到恶意代码分析与检测系统中。但是,网络安全威胁在不断地快速变异和演化,在数量增长的同时,超过70%的新恶意代码样本采用了躲避机器学习的自我保护技术,有的样本甚至使用了多种躲避技术。因此,恶意代码的数据分布规律和显著水平在随时间不断的变化,导致基于机器学习的检测模型存在严重的快速退化问题。这就要求恶意代码分析模型需要根据网络安全威胁的变化进行动态调整,快速吸收新的知识,还需要对过去的威胁预测进行修正。
技术实现思路
本专利技术目的是解决现有的恶意代码的变异问题,以及各种机器学习模型的预测结果不能相互对比和共同防御的问题,提供一种基于统计学习的恶意代码多模型交叉检测方法。该方法提供一个多模型的开放平台,各种基于不一致打分机制的检测模型都可以整合进该平台。在根据已知恶意代码样本进行训练后,每个模型都会对未知样本计算一个不一致得分,统计学习对不一致得分进行统计分析,得到样本在不同模型上的显著度得分。根据显著度得分,选择得分最高的模本文档来自技高网...

【技术保护点】
1.底层打分分类方法,其特征在于该方法包括如下步骤:第1步、基本概念:(1)网络流量(Netflow):是同一网络通信时域的网络包的集合;(2)网络痕迹(Trace):是一组含有相同源IP、目的IP、目的端口和协议的多个网络流量(Netflow);(3)僵尸网络(Botnet):指采用一种或多种传播手段,将大量主机感染僵尸程序(Bot),从而在控制者和被感染主机之间所形成的一个能够一对多控制的网络;(4)基于机器学习的检测模型:数据,学习算法,找到一个阈值建立模型,通过模型打分,比较打分和阈值的关系,预测结果。第2步、特征提取第2.1、确定网络行为的表示粒度,其中包括:数据包级粒度,每个数据包...

【技术特征摘要】
1.底层打分分类方法,其特征在于该方法包括如下步骤:第1步、基本概念:(1)网络流量(Netflow):是同一网络通信时域的网络包的集合;(2)网络痕迹(Trace):是一组含有相同源IP、目的IP、目的端口和协议的多个网络流量(Netflow);(3)僵尸网络(Botnet):指采用一种或多种传播手段,将大量主机感染僵尸程序(Bot),从而在控制者和被感染主机之间所形成的一个能够一对多控制的网络;(4)基于机器学习的检测模型:数据,学习算法,找到一个阈值建立模型,通过模型打分,比较打分和阈值的关系,预测结果。第2步、特征提取第2.1、确定网络行为的表示粒度,其中包括:数据包级粒度,每个数据包表示一个网络行为;NetFlow级粒度,一个网络连接过程的所有网络数据表示一个网络行为;应用级粒度,一个应用过程的所有数据包表示一个网络行为;第2.2、提取网络行为的特征点f;根据不同的数据集,选择不同的网络行为特征点f;第2.3、选择特征点,将网络行为抽象成特征向量V;在可选网络行为特征点中,选择n个特征点组成特征向量V(f1,f2,...fn),使用选择的网络行为特征点作为网络行为的抽象表示,将二进制的网络数据映射成特征点组成的特征向量;第2.4、网络恶意行为集合的特征矩阵表示;网络恶意行为集合中包含了N个行为,每个行为都使用相同结构的特征向量Vi表示,1≤i≤N,这N个特征向量组成网络恶意行为特征矩阵C;特征矩阵的每一列表示一个特征点、每一行表示一个网络恶意行为的特征向量;第3步、计算机器学习模型的预测分数第3.1、任何基于阈值的机器学习检测模型都能够作为打分函数,都可以加入到基于统计学习的恶意代码多模型交叉检测方法中;第3.2、每一个未知的恶意代码样本都能够根据不同机器学习模型得到相应的得分。2.基于ConformalPrediction算法的统计学习预测方法,其特征在于,该方法以权利要求1所述的多种机器学习模型为底层,选用统计学习算法,计算一个待测样本x的显著度p-value,步骤如下:第1步、计算显著度p-value第1.1、输入:已知集合D包含n个恶意代码样本:D={z1,…,zn-1},zi∈Z,其中恶意代码样本可重复但无顺序,多为已被分类或聚类算法处理后的具有某种相似性的恶意代码样本的集合;①恶意代码样本z,待检测的未知代码样本,预测该代码样本与已知恶意代码样本集合的p-value;②不一致性度量函数A:Z(*)×Z→R,该函数的输入为一个已知恶意代码...

【专利技术属性】
技术研发人员:王志余沛然孙心怡魏然邱克帆
申请(专利权)人:南开大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1