网络流量多序列匹配方法、系统、设备及可读存储介质技术方案

技术编号:29227195 阅读:29 留言:0更新日期:2021-07-10 01:13
本发明专利技术公开了一种网络流量多序列匹配方法、系统、设备及可读存储介质,将所有待匹配序列进行压缩,减少计算序列的总长度,然后提取所有待匹配序列中的向量,对提取的向量进行去重,同时建立双向连接指针,统计去重后的所有向量的各个维度的出现次数,按照出现频率建立一棵基于信息增益的多叉决策树,将被匹配序列的每个向量依次送入多叉决策树,得出向量匹配结果,解耦了向量匹配与序列匹配,分别设计、优化了向量匹配方法与多序列匹配方法,以更快速的对多条序列特征进行匹配,加速算法的计算过程,减小传统算法的时空复杂度。在进行大规模网络流量多序列匹配的情况下,能够在保证匹配效果的情况下大量减少计算量,节省模型特征生成的时间成本。成的时间成本。成的时间成本。

【技术实现步骤摘要】
网络流量多序列匹配方法、系统、设备及可读存储介质


[0001]本专利技术属于网络安全与特征匹配领域,尤其涉及到一种网络流量多序列匹配方法、系统、设备及可读存储介质。

技术介绍

[0002]近些年来,互联网的规模不断扩张,但是网络空间中仍然存在着大量的潜在威胁,面对这些威胁,政府、公司均采用了多种多样的方式进行网络监管。被动流量分析是网络监管中的一个重要的有效组成部分,可以在一定程度上对用户的上网行为进行分析识别,从而进一步对威胁行为进行检测、阻拦、取证。流量分析的一般方式是在网关建立流量镜像,然后将镜像流量送入检测模型,由检测模型输出结果。检测模型会使用不同种类的特征作为输入信息,包括统计特征、时序特征等等,随后使用机器学习、深度学习等手段对特征进行处理,最终判断流量是否存在潜在威胁。数据包序列特征是另一种一种新兴的特征,可以用来进行流量模式匹配,生成模型所必要的输入信息。但这种特征缺乏在实际应用场景中的应用,其主要原因是需要大量的计算量,其计算量通常是统计特征的数倍,由于计算量的限制仍无法大规模部署,如何快速的对多条序列特征进行匹配是一个具有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网络流量多序列匹配方法,其特征在于,包括以下步骤:S1,将所有待匹配序列进行压缩;S2,从压缩后的待匹配序列中的提取所有待匹配序列中的向量,对提取的向量进行去重,同时建立双向连接指针;S3,统计去重后的所有向量的各个维度的出现次数,按照出现频率建立一棵基于信息增益的多叉决策树;S4,将被匹配序列的每个向量依次送入多叉决策树,得出向量匹配结果;S5,利用双向连接指针还原所有去重后待匹配序列相对于每一个向量的匹配结果,然后对每个去重后待匹配序列分别使用贪心算法输出单个向量串的匹配结果,对匹配后的单个向量串进行解压缩,还原所有原始待匹配序列的匹配结果,从而实现网络流量的多序列快速匹配。2.根据权利要求1所述的一种网络流量多序列匹配方法,其特征在于,通过接收所有的输入数据获取待匹配序列以及一个被匹配序列。3.根据权利要求1所述的一种网络流量多序列匹配方法,其特征在于,可同时获取多个待匹配序列。4.根据权利要求1所述的一种网络流量多序列匹配方法,其特征在于,待匹配序列和被匹配序列的元素均为维度相同的多维向量。5.根据权利要求1所述的一种网络流量多序列匹配方法,其特征在于,多叉决策树用于单个向量的快速匹配,多叉决策树的每一步过程为选择优先匹配的向量维度。6.根据权利要求5所述的一种网络流量多序列匹配方法,其特征...

【专利技术属性】
技术研发人员:马小博瞿建潘鹏宇王鑫李森卞华峰
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1