一种网络流特征的提取与存储方法技术

技术编号：18458818 阅读：28 留言：0更新日期：2018-07-18 12:42

一种网络流特征的提取与存储方法,包括以下步骤：S1：使用gopacket数据包工具驱动libpcap函数包，捕捉原始的网络数据包，按网络的不同的层次的特性提取网络数据包，得到特征原文数据，并且进行落盘处理，生成本地网络数据包文件并存储；S2：使用avro二进制序列化的方式将特征原文数据序列化成特征二进制数据；S3：将特征二进制数据写入到分布式消息队列构成的数据管道中，进行数据的缓存存储，形成缓存数据；S4：将缓存数据进行反序列化处理得到特征数据，获取到所述特征原文数据，运用窗口运算获取所述特征原文数据的统计特征数据；S5：将所述特征原文数据和统计特征数据用列式稀疏存储的方式存储在分布式数据库Hbase中。

A method of extracting and storing network flow characteristics

A method of extracting and storing network flow features, including the following steps: S1: using the gopacket packet tool to drive Libpcap function packets, capture the original network packets, extract network packets according to the characteristics of different levels of the network, get the feature original data, and process the local network data to generate local network data. Packet file and storage; S2: using Avro binary serialization to sequence the characteristic original data into characteristic binary data; S3: write the feature binary data into a data pipeline composed of distributed message queues to store the data and form cached data; S4: the cache data is in the anti serialization section. The feature data is obtained, the original data is obtained, and the statistical feature data of the original text data are obtained by window operation; S5: the features of the original data and the statistical feature data are stored in the distributed database Hbase in a column sparse storage manner.

全部详细技术资料下载

【技术实现步骤摘要】
一种网络流特征的提取与存储方法
本专利技术涉及计算机通信
，具体涉及一种网络流特征的提取与存储方法。
技术介绍
目前许多的网络特征提取工具往往依赖于开源软件如：snort、SNMP、netflow等，物理硬件资源利用率得不到很好的提升，磁盘的IO瓶颈得不到解决，网络资源大量浪费，以及数据的可靠、冗余等机制的缺失，阻碍系统整体的性能、可靠性，最终导致大量的物理、人力资源的浪费。并且snort等的工具的不可控性会带来很多安全性问题以及更多的人力成本，同时，面对海量网络数据流的情况下，传统的网络流特征提取工具的性能不足以承担高速网络的网络流特征提取与存储工作。本专利技术所使用的特征提取技术能够在大流量的情况下保障整个系统的高效性、稳定性，节省物理、人力成本。在实际生产环境中，特征数据流的传输，往往采用原文的方式在数据管道中流转，处理灵活性低，造成了网络资源的浪费，容易达到网络瓶颈，进而从而引发整个系统的停滞。
技术实现思路
针对现有技术中所存在的不足，本专利技术提供了一种网络流特征的提取与存储方法，解决在有限的网络条件下保障网络流特征提取的鲁棒性、高效性，保证存储的可用性、可靠性的问题。为实现上述目的，本专利技术采用了如下的技术方案：一种网络流特征的提取与存储方法,包括以下步骤：S1：使用gopacket数据包工具驱动libpcap函数包，按网络的不同的层次的特性对网络数据进行网络数据包提取，得到特征原文数据,并且进行落盘处理，生成本地数据包文件并存储；S2：使用avro二进制序列化的方式将特征原文数据序列化成特征二进制数据；S3：将特征二进制数据写入到分布式...

【技术保护点】
1.一种网络流特征的提取与存储方法,其特征在于，包括以下步骤：S1：使用gopacket数据包工具驱动libpcap函数包，按网络的不同的层次的特性对网络数据进行网络数据包提取，得到特征原文数据,并且进行落盘处理，生成本地数据包文件并存储；S2：使用avro二进制序列化的方式将特征原文数据序列化成特征二进制数据；S3：将特征二进制数据写入到分布式消息队列构成的数据管道中，进行数据的缓存存储；S4：提取缓存数据进行反序列化处理得到特征数据，运用基于Flink流式处理引擎的窗口运算获取所述特征数据的统计特征数据；S5：将所述特征数据和统计特征数据拼接成网络流特征，用列式稀疏存储的方式将网络流存储在分布式数据库Hbase中。

【技术特征摘要】
1.一种网络流特征的提取与存储方法,其特征在于，包括以下步骤：S1：使用gopacket数据包工具驱动libpcap函数包，按网络的不同的层次的特性对网络数据进行网络数据包提取，得到特征原文数据,并且进行落盘处理，生成本地数据包文件并存储；S2：使用avro二进制序列化的方式将特征原文数据序列化成特征二进制数据；S3：将特征二进制数据写入到分布式消息队列构成的数据管道中，进行数据的缓存存储；S4：提取缓存数据进行反序列化处理得到特征数据，运用基于Flink流式处理引擎的窗口运算获取所述特征数据的统计特征数据；S5：将所述特征数据和统计特征数据拼接成网络流特征，用列式稀疏存储的方式将网络流存储在分布式数据库Hbase中。2.如权利要求1所述的一种网络流特征的提取与存储方法，其特征在于，运用基于Flink流式处理引擎的窗口运算获取所述特征数据的统计特征数据，得到数量统计特征数据和时间统计特征数据，具体实现步骤为：S4-1：建立时间窗口并设定时间阈值；S4-2：对进入时间窗口的特征数据中的每一条数据时数据进行信息计算；S4-3：到达时间窗口的时间阈值时，调用窗口计算，得出时间统计特征数据...

【专利技术属性】
技术研发人员：高英，李若鹏，靳亚洽，刘煜，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人