基于数据流结构的海量网络数据查找方法技术

技术编号：16587458 阅读：79 留言：0更新日期：2017-11-18 15:03

本发明专利技术公开了一种基于数据流结构的海量网络数据查找方法，包括实时数据的存储方法和实时查询方法。网络中数据是以数据流形式到达，需要对网络数据进行约减，截取每条网络报文数据的特定长度，之后按照特定的数据文件大小存储有效信息，对于每条网络报文中源、宿IP使用布隆过滤器(Bloom Filter)算法建立索引文件；实时查询时，先对索引文件查找，匹配之后再对数据存储文件进行查找，获得详细信息。本发明专利技术可以快速处理海量网络数据，占用存储空间小，保存大量网络细节信息，使用Bloom Filter哈希算法对网络报文数据建立索引，实现文件内容的分级检索，且索引结构简单，占用空间小，使用三个不同的哈希函数计算使得哈希冲突率低，而检索时，索引匹配查找快速且准确，有很好的时间和空间效率。

Massive network data searching method based on data stream structure

The invention discloses a massive network data searching method based on data stream structure, which comprises the storage method of real time data and the real-time inquiry method. The network data is arriving in a data stream, the need for network data reduction, the specific length of each network packet interception data, then according to a specific data file storage information, for the use of Bloom filter source and destination network packets in each IP (Bloom Filter) index file creation algorithm; real-time query. The index file search, then the data storage, file search, obtain detailed information. The invention can fast processing of massive network data, small storage space, save a large number of network details, indexing of network packet data using Bloom Filter hash algorithm, classification of the contents of the file retrieval, and the index has the advantages of simple structure, small occupied space, using three different hash function hash computation makes the conflict rate is low. While searching, indexing and matching search quickly and accurately, the time and space efficiency is very good.

全部详细技术资料下载

【技术实现步骤摘要】
基于数据流结构的海量网络数据查找方法
本专利技术涉及海量数据处理领域，尤其是一种对于海量网络数据的查找方法。
技术介绍
数据查找是指根据查找需求对一个计算机文件或数据库提取所需要数据的一种技术。目前针对文件数据的常见数据查找方法有：线性查找，对分查找，跳步查找等；线性查找是把给定的关键字值与文件中的记录逐个进行比较，直至找到与之匹配的记录为止。这种方法简单易行，但对于海量数据查询时效率低下，难以满足需求。对分查找是将文件中的记录按关键字值大小顺序排列，使用分治法，将文件一分为二，用给定关键字值与中点的记录进行比较，若匹配，则查找成功；否则判断所要查找的记录可能在上半部分，还是在下半部分。然后，对确定的部分继续上述过程，直至找到要求的记录，查找成功；或最后只剩下一个记录仍不能匹配，查找失败。这种方法适用于关键字值是可比较，且有一定结构化性质的，对于非结构化数据来说没法进行顺序排列。跳步查找是先用大步跳过一部分记录，再用较小的步长或顺序查找方法在较小的范围内找到要查找的记录。这些查找方法对于海量数据来说，查找速度较慢，难以达到需求。因此本专利技术提出一种基于数据流结构...
基于数据流结构的海量网络数据查找方法

【技术保护点】
一种基于数据流结构的海量网络数据查找方法，包括：实时数据的存储方法和实时查询方法，其特征在于，所述实时数据的存储方法为：步骤101配置参数，设一文件阈值F，设置两个大小均为2N的比特向量Bsip、Bdip，N为大于1的正整数，比特向量Bsip、Bdip中的所有2N比特的初始值设置为0，步骤102创建新空网络数据存储文件及源IP/宿IP索引文件，所述网络数据存储文件的阈值取为步骤101所设的文件阈值F，步骤103获取网络报文，截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP和网络数据，并从所截取的字节流中提取源IP和宿IP，K为所截取字节流的字节数并为正整数，步骤...

【技术特征摘要】
1.一种基于数据流结构的海量网络数据查找方法，包括：实时数据的存储方法和实时查询方法，其特征在于，所述实时数据的存储方法为：步骤101配置参数，设一文件阈值F，设置两个大小均为2N的比特向量Bsip、Bdip，N为大于1的正整数，比特向量Bsip、Bdip中的所有2N比特的初始值设置为0，步骤102创建新空网络数据存储文件及源IP/宿IP索引文件，所述网络数据存储文件的阈值取为步骤101所设的文件阈值F，步骤103获取网络报文，截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP和网络数据，并从所截取的字节流中提取源IP和宿IP，K为所截取字节流的字节数并为正整数，步骤104选取哈希值的取值范围为0到2N-1的哈希函数，对源IP和宿IP进行哈希值计算，得到当前网络报文的源IP和宿IP的哈希值n，再在比特向量Bsip、Bdip中的第n位上置1，保存并形成当前比特向量Bsip、Bdip，同时将当前截取的字节流作为一条数据记录，写入网络数据存储文件，保存并形成当前网络数据存储文件，步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值，则将当前比特向量Bsip、Bdip写入源宿IP索引文件并置于源宿IP索引文件库中，将当前网络数据存储文件存放于网络数据存储文件库中，然后再清空当前比特向量Bsip、Bdip，得到初始值为0的比特向量Bsip、Bdip，返回步骤102；否则，返回步骤103；所述实时查询方法为：步骤201配置一个大小为2N的比特向量Bip，N为大于1的正整数，比特向量Bip中所有2N比特的初始值设置为0，步骤202获取待查源IP或宿IP，采用步骤104所选的哈希函数，对源IP和宿IP进行哈希值计算，得到待查...

【专利技术属性】
技术研发人员：程光，郭春生，周余阳，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人