【技术实现步骤摘要】
一种基于模型解释的规则式应用流量分类方法及系统
[0001]本专利技术涉及使用模型解释方法生成特征匹配规则,以近似替代深度学习技术对混杂的应用流量进行自动分类,具体涉及一种基于模型解释的规则式应用流量分类方法及系统。
技术介绍
[0002]应用流量分类是将应用流量与其生成的具体应用协议或应用相关联的过程,其在网络安全与计算机网络等应用领域都有着重要应用,如网络服务质量(QoS)提升、入侵检测和防御等。具体而言,在网络管理中,为了获得更好的网络服务质量和网络供应,网络运营商首先需要将流量分为不同的应用或者应用协议。另外,在网络安全领域中,应用流量分类是如异常检测,构建网络防火墙和过滤有害流量等活动的第一步。由于这种应用需求,该领域的研究吸引着众多学术界和工业界的研究关注。值得注意的是,大多数商业解决方案通常都依赖深度数据报文检查(DPI)进行应用流量分类,同时DPI也被认为是最准确的流量分类技术之一。在过去的十年中,研究团体探索了多种基于数据报文中有效负载的应用流量分析方法。近年来,受到深度学习技术在计算机视觉、机器翻译和语音 ...
【技术保护点】
【技术特征摘要】
1.一种基于模型解释的规则式应用流量分类方法,其特征在于,包括构建阶段和分类阶段;所述构建阶段包括如下步骤:1)以已知所属类型的应用流量为输入,将每条应用流量以字节为单位转换为指定格式的应用流量字节序列,字节在序列中的次序称为其位置,字节及其在序列中的位置统称为特征;2)以深度学习模型与步骤1)得到的应用流量字节序列作为输入,使用应用流量字节序列作为训练数据集,采用有监督学习的方式,对深度学习模型进行训练;3)以步骤1)得到的应用流量字节序列和步骤2)得到的训练调优后的深度学习模型为输入,对模型进行解释,得到应用流量字节序列中各个特征对深度学习模型分类的贡献度向量;4)基于3)得到的分类贡献度向量集合,进行可选的模型有效性分析,并生成分类规则集;所述分类阶段包括如下步骤:5)以待测应用流量为输入,将待测应用流量处理为具有与步骤1)相同格式的应用流量字节序列;6)根据构建阶段中步骤4)得到的分类规则集,对待分类的应用流量进行规则匹配,并输出判别结果。2.如权利要求1所述的一种基于模型解释的规则式应用流量分类方法,其特征在于,步骤3)进行深度学习模型解释的具体操作方法是:3
‑
1)对于任意已知类别的应用流量字节序列,将其作为真实样本,生成多个伪样本,并生成代表真实样本的特征在伪样本中出现情况的特征出现向量;3
‑
2)以步骤3
‑
1)得到的特征出现向量为输入,为每个伪样本计算该伪样本与真实应用流量字节序列的相似性系数,得到同一类真实应用流量字节序列下所有伪样本的相似性系数;3
‑
3)以步骤3
‑
1)得到的伪样本为输入,使用步骤2)得到的已训练的深度学习模型对真实应用流量字节序列及其伪样本进行分类,得到真实应用流量字节序列和伪样本在真实应用流量字节序列的实际类别上的深度学习模型分类值;3
‑
4)以步骤3
‑
1)得到的伪样本特征出现向量、步骤3
‑
2)得到的伪样本相似性系数、步骤3
‑
3)得到的深度学习模型分类值为输入,构建由伪样本特征出现向量到深度学习模型分类值的映射关系,使用回归算法拟合该映射关系、并使用伪样本相似性系数初始化回归系数,得到该应用流量字节序列的特征贡献度向量;3
‑
5)对每条已知类别的应用流量字节序列,重复步骤3
‑
1)至3
‑
4),得到全体已知类别的应用流量字节序列的特征贡献度向量集合。3.如权利要求1所述的一种基于模型解释的规则式应用流量分类方法,其特征在于,步骤4)生成分类规则集的方法是:4
‑
1)本步骤为可选步骤,以步骤3)得到特征贡献度向量集合为输入,对具有较高贡献度的特征进行分析,以判断深度学习模型学到的高贡献度特征是否能够与已知的通用网络协议格式相对应;
4
‑
2)以步骤3)得到的特征贡献度向量集合或步骤4
‑
1)筛选后的特征贡献度向量集合为输入,设定条件对每条特征贡献度向量进行特征筛选,仅保留符合筛选条件的特征及其贡献度,不符合筛选条件的特征置为空值、贡献度置为0(即该条规则中该特征无效,不予关注),得到筛选的特征贡献度向量集合;4
‑
3)以步骤4
‑
2)得到的筛选的特征贡献度向量集合为输入,为每条筛选的特征贡献度向量进行贡献度数值平滑处理,得到应用流量的分类规则集;步骤4
‑
3)对于筛选的特征贡献度向量进行数值平滑处理的方法是:4
‑3‑
1)以步骤4
‑
2)得到的筛选后的特征贡献度向量为输入,对于任一特征贡献度向量,将特征贡献度向量中所有特征贡献度相加,得到特征贡献度总和;4
‑3‑
2)以步骤4
‑
2)得到的筛选后的特征贡献度向量和4
‑3‑
1)得到的特征贡献度总和为输入,将特征贡献度向量中每个特征贡献度与特征贡献度总和相除,得到平滑处理后的特征贡献度向量。4.如权利要求1所述的一种基于模型解释的规则式应用流量分类方法,其特征在于,步骤6)对待测应用流量字节序列进行规则匹配的方法是:6
‑
1)以步骤4)得到的应用流量分类规则集和步骤5)得到的待测应用流量字节序列为输入,将待测应用流量字节序列与应用流量分类规则集中的每条分类规则进行逐位置匹配,待测应用流量字节序列与分类规则在同一位置特征值取值一致时,认为该位置为生效位;计算待测应用流量字节序列与该规则能够匹配的生效位数量、生效位在该规则的有效特征中所占比例、该规则中生效位的贡献度总和;6
‑
2)以步骤6
‑
1)得到的全体规则的生效位数量、生效位所占比例、生效位贡献度总和为输入,根据给定策略判定待测应用流量字节序列所属应用类别,输出分类结果。步骤6
‑
2)进行待测应用流量字节序列所属类别的策略判定的方法是:6
‑2‑
1)以步骤6
‑
1)得到的待测应用流量字节序列与分类规则集中所有规则的生效特征总贡献度集合、生效位总数集合、生效位所占比例集合作为输入,首先比对生效特征总贡献度集合,选取生效特征总贡献度最高的规则,构成第一级候选规则集I;6
‑2‑
2)以步骤6
‑2‑
1)中得到的第一级候选规则集I为输入,比较第一级候选规则集I中所有规则与待测应用流量字节序列匹配得到的生效位所占比例,选取生效位所占比例最高的规则,构成第二级候选规则集I';6
‑2‑
3)以步骤6
‑2‑
2)中得到的第二级候选规则集I'为输入,比较第二级候选规则集中所有规则与待测应用流量字节序列匹配得到的生效位总数,选取生效位总数最高的规则,构成命中规则集I”;6
‑2‑
4)以步骤6
‑2‑
3)得到的命中规则集I”为输入,将命中规则集I”中的规则转换为对应的应用类型,得到待测应用流量字节序列的分类结果;若命中规则集I”为空集,则判定待测应用流量字节序列为未知类型的应用流量。5.如权利要求2所述的一种基于模型解释的规则式应用流量分类方法,其特征在于,步骤3
‑
1)基于真实应用流量字节序列生成伪样本的方法是:3
‑1‑
1)以步骤1)得到的已知类型的应用流量字节序列为输入,对于任一真实应用流量字节序列,随机选取部分特征置为空值,得到基于真实样本的伪样本;3
‑1‑
2)以步骤3
‑1‑
1)得到的伪样本为输入,创建该伪样本的特征出现向量,特征出现
向量为与该伪样本具有同样尺寸的向量,向量中的元素取值范围为0或1,表示真实样本中特征在伪样本中的出现情况;将伪样本与生成该伪样本的真实应用流量字节序列的特征进行逐位置对比,以确定特征出现向量对应位置元素的取值:(1)若伪样本与真实应用流量字节序列在某特征上取值相同且非空值,则特征出现向量中对应位...
【专利技术属性】
技术研发人员:王一鹏,赵辰,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。