一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质制造方法及图纸

技术编号：33029165 阅读：18 留言：0更新日期：2022-04-15 09:04

本发明专利技术提供了一种基于深度学习的针对流量解析的重要信息排序方法、装置和可读存储介质，使用公共流量符号和流量内容训练生成BERT模型，通过MD5比对同类中重复的文档，通过迭代二分法的方式过滤掉冗余垃圾流量，以及重复出现的流量；针对小流量，通过统计的方式获取特定的分隔符，将流量切割成流量段并两两比对；如果比对相似度高则只取其中一段作为主流量；比对结果不同则针对不同的流量段再次分析，在单个流量段中，采用N

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质

[0001]本专利技术涉及文本挖掘
，具体涉及一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质。

技术介绍

[0002]随着网络技术和计算机技术的高速发展，互联网已成为人们获取外部信息，相互交流沟通的一种重要方式。但是近年来，流量呈现复杂化，隐蔽化，难以解析等等情况。因此针对互联网流量的解析此时至关重要，如何通过互联网流量获取到有用的信息间不容发。目前，各个人工智能，大数据等
也在异军突起，大数据实现互联网的流量价值化，通过海量数据结合深度学习分析方法实现流量的重要信息提取，提高网络相关管理部门对特定对象工作的隐蔽性、进一步提升网络相关管理部门在网络斗争的软实力和主动权。
[0003]目前，对于流量的重要信息获取可参考的现有技术有：传统的原始报文分类标识以及报文数据业务匹配。传统的原始报文分类标识是基于协议进行的初步匹配，能够针对现有的一些成熟的协议快速分类，但是随着互联网的发展，各式各样新兴的协议，模式层出不穷，传统的报文分类方式无法及时跟随互联网的脚步。并且，匹配的协议库越大，速度也随之下降，降低了效率同时还需要不断维护报文协议库，也增加了大量的人力物力。而报文数据业务匹配，则需要根据业务的需要，不断的增加关键字，关键词进行检索匹配。同样的，关键字库也需要不断的维护，同时因为流量的不断更新，方式越来越多样，无法满足覆盖新时代的大量新词汇。

技术实现思路

[0004]为解决现有技术所存在的海量流量解...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的针对流量解析的重要信息排序方法，其特征在于，包括：S1：使用已有的公共流量符号和流量内容进行Bert模型训练生成Bert模型，并且使用所述Bert模型对所要处理的流量信息进行分类以获得所述流量信息的类型；S2：计算所述流量信息中所有流量信息的MD5值，并通过迭代二分法比对同一类型的流量信息的MD5值，排除MD5值相同的流量信息中的重复流量信息；S3:使用N
‑
Gram算法获取所述重复流量信息中出现频率较高的符号，并设置成分隔符；使用所述分隔符将单条流量信息分割成多个字段，通过N
‑
Gram算法配合正则表达式获取所述字段中的重复片段；S4：递归执行S2
‑
S3；S5：通过正则表达式和N
‑
Gram算法计算单条流量片段的片频，并对片频较高的流量片段排序，输出重点流量内容。2.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法，其特征在于，所述S2步骤还包括：统计所述重复流量信息的重复次数，并将所述重复次数大于阈值的流量信息存入模型库。3.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法，其特征在于，所述S3步骤还包括：响应于所述字段存在所述分隔符，将所述分隔符存入模型库；响应于所述字段不存在所述分隔符，使用所述分隔符再次分割所述字段。4.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法，其特征在于，所述S3步骤还包括：响应于所述重复片段存在重复内容，排除所述重复片段中的重复部分，并统计所述重复片段的重复次数。5.根据权利要求3所述的一种基于深度学习的针对流量解析的重要信息排序方法，其特征在于，所述分隔符还包括基本的标点符号和流量符号。6.一种基于深度学习的针对流量解析的重要信息排序装置，其特征在于，包括：Bert...

【专利技术属性】
技术研发人员：蔡淑苹，李剑煜，杨心恩，陈思德，林山，郭小春，
申请(专利权)人：厦门安胜网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人