一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质制造方法及图纸

技术编号:33029165 阅读:18 留言:0更新日期:2022-04-15 09:04
本发明专利技术提供了一种基于深度学习的针对流量解析的重要信息排序方法、装置和可读存储介质,使用公共流量符号和流量内容训练生成BERT模型,通过MD5比对同类中重复的文档,通过迭代二分法的方式过滤掉冗余垃圾流量,以及重复出现的流量;针对小流量,通过统计的方式获取特定的分隔符,将流量切割成流量段并两两比对;如果比对相似度高则只取其中一段作为主流量;比对结果不同则针对不同的流量段再次分析,在单个流量段中,采用N

【技术实现步骤摘要】
一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质


[0001]本专利技术涉及文本挖掘
,具体涉及一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质。

技术介绍

[0002]随着网络技术和计算机技术的高速发展,互联网已成为人们获取外部信息,相互交流沟通的一种重要方式。但是近年来,流量呈现复杂化,隐蔽化,难以解析等等情况。因此针对互联网流量的解析此时至关重要,如何通过互联网流量获取到有用的信息间不容发。目前,各个人工智能,大数据等
也在异军突起,大数据实现互联网的流量价值化,通过海量数据结合深度学习分析方法实现流量的重要信息提取,提高网络相关管理部门对特定对象工作的隐蔽性、进一步提升网络相关管理部门在网络斗争的软实力和主动权。
[0003]目前,对于流量的重要信息获取可参考的现有技术有:传统的原始报文分类标识以及报文数据业务匹配。传统的原始报文分类标识是基于协议进行的初步匹配,能够针对现有的一些成熟的协议快速分类,但是随着互联网的发展,各式各样新兴的协议,模式层出不穷,传统的报文分类方式无法及时跟随互联网的脚步。并且,匹配的协议库越大,速度也随之下降,降低了效率同时还需要不断维护报文协议库,也增加了大量的人力物力。而报文数据业务匹配,则需要根据业务的需要,不断的增加关键字,关键词进行检索匹配。同样的,关键字库也需要不断的维护,同时因为流量的不断更新,方式越来越多样,无法满足覆盖新时代的大量新词汇。

技术实现思路

[0004]为解决现有技术所存在的海量流量解析耗时多,效率低,无法识别重点内容的问题,本专利技术的实施例中提出了如下的技术方案:
[0005]一种基于深度学习的针对流量解析的重要信息排序方法,包括:
[0006]S1:使用已有的公共流量符号和流量内容进行Bert模型训练生成Bert 模型,并且使用所述Bert模型对所要处理的流量信息进行分类以获得所述流量信息的类型;
[0007]S2:计算所述流量信息中所有流量信息的MD5值,并通过迭代二分法比对同一类型的流量信息的MD5值,排除MD5值相同的流量信息中的重复流量信息;
[0008]S3:使用N

Gram算法获取所述重复流量信息中出现频率较高的符号,并设置成分隔符;使用所述分隔符将单条流量信息分割成多个字段,通过 N

Gram算法配合正则表达式获取所述字段中的重复片段;
[0009]S4:递归执行S2

S3;
[0010]S5:通过正则表达式和N

Gram算法计算单条流量片段的片频,并对片频较高的流量片段排序,输出重点流量内容。
[0011]优选的,所述S2步骤还包括:统计所述重复流量信息的重复次数,并将所述重复次
数大于阈值的流量信息存入模型库。
[0012]优选的,所述S3步骤还包括:响应于所述字段存在所述分隔符,将所述分隔符存入模型库;响应于所述字段不存在所述分隔符,使用所述分隔符再次分割所述字段。
[0013]优选的,所述S3步骤还包括:响应于所述重复片段存在重复内容,排除所述重复片段中的重复部分,并统计所述重复片段的重复次数。
[0014]优选的,所述分隔符还包括基本的标点符号和流量符号。
[0015]本专利技术还提出了一种基于深度学习的针对流量解析的重要信息排序装置,包括:
[0016]Bert模型生成单元:配置用于使用已有的公共流量符号和流量内容进行 Bert模型训练生成Bert模型,并且使用所述Bert模型对所要处理的流量信息进行分类以获得所述流量信息的类型;
[0017]流量解析单元:配置用于计算所述流量信息中所有流量信息的MD5值,并通过迭代二分法比对同一类型的流量信息的MD5值,排除MD5值相同的流量信息中的重复流量信息;使用N

Gram算法获取所述重复流量信息中出现频率较高的符号,并设置成分隔符;使用所述分隔符将单条流量信息分割成多个字段,通过N

Gram算法配合正则表达式获取所述字段中的重复片段;
[0018]递归单元:配置用于执行流量解析单元所执行的步骤;
[0019]输出单元:配置用于通过正则表达式和N

Gram算法计算单条流量片段的片频,并对片频较高的流量片段排序,输出重点流量内容。
[0020]优选的,所述流量解析单元执行的步骤还包括:统计所述重复流量信息的重复次数,并将所述重复次数大于阈值的流量信息存入模型库。
[0021]优选的,所述流量解析单元执行的步骤还包括:响应于所述字段存在所述分隔符,将所述分隔符存入模型库;响应于所述字段不存在所述分隔符,使用所述分隔符再次分割所述字段;响应于所述重复片段存在重复内容,排除所述重复片段中的重复部分,并统计所述重复片段的重复次数。
[0022]优选的,所述分隔符还包括基本的标点符号和流量符号。
[0023]本专利技术还提出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时执行如权利要求1

5任一项所述的方法。
[0024]本专利技术的技术效果为:通过迭代二分法将大量冗余的流量信息以及海量数据的非重点部分进行过滤;针对单条流量,提取重复出现的流量分隔符对流量简化重整;针对提取的流量块、流量片通过n

gram关联矩阵进一步查重并提取新的流量分隔符进行流量内容的分割以及流量重点内容提取,有效的减少了流量分析过程的工作量,提高了获取重点流量信息的效率;而且针对大量流量需要检索的情况,也能进行快速排查,有效降低人工的参与,省时省力。
附图说明
[0025]包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
[0026]图1为本专利技术的总体框架流程图;
[0027]图2为根据本专利技术的实施例的一种基于深度学习的针对流量解析的重要信息排序方法的流程图;
[0028]图3为根据本专利技术的实施例的一种基于深度学习的针对流量解析的重要信息排序装置的结构图;
具体实施方式
[0029]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。
[0030]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0031]首先介绍本专利技术的基本原理,这有助于理解本专利技术的一种基于深度学习的针对流量解析的重要信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的针对流量解析的重要信息排序方法,其特征在于,包括:S1:使用已有的公共流量符号和流量内容进行Bert模型训练生成Bert模型,并且使用所述Bert模型对所要处理的流量信息进行分类以获得所述流量信息的类型;S2:计算所述流量信息中所有流量信息的MD5值,并通过迭代二分法比对同一类型的流量信息的MD5值,排除MD5值相同的流量信息中的重复流量信息;S3:使用N

Gram算法获取所述重复流量信息中出现频率较高的符号,并设置成分隔符;使用所述分隔符将单条流量信息分割成多个字段,通过N

Gram算法配合正则表达式获取所述字段中的重复片段;S4:递归执行S2

S3;S5:通过正则表达式和N

Gram算法计算单条流量片段的片频,并对片频较高的流量片段排序,输出重点流量内容。2.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法,其特征在于,所述S2步骤还包括:统计所述重复流量信息的重复次数,并将所述重复次数大于阈值的流量信息存入模型库。3.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法,其特征在于,所述S3步骤还包括:响应于所述字段存在所述分隔符,将所述分隔符存入模型库;响应于所述字段不存在所述分隔符,使用所述分隔符再次分割所述字段。4.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法,其特征在于,所述S3步骤还包括:响应于所述重复片段存在重复内容,排除所述重复片段中的重复部分,并统计所述重复片段的重复次数。5.根据权利要求3所述的一种基于深度学习的针对流量解析的重要信息排序方法,其特征在于,所述分隔符还包括基本的标点符号和流量符号。6.一种基于深度学习的针对流量解析的重要信息排序装置,其特征在于,包括:Bert...

【专利技术属性】
技术研发人员:蔡淑苹李剑煜杨心恩陈思德林山郭小春
申请(专利权)人:厦门安胜网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1