The invention discloses a massive network data searching method based on data stream structure, which comprises the storage method of real time data and the real-time inquiry method. The network data is arriving in a data stream, the need for network data reduction, the specific length of each network packet interception data, then according to a specific data file storage information, for the use of Bloom filter source and destination network packets in each IP (Bloom Filter) index file creation algorithm; real-time query. The index file search, then the data storage, file search, obtain detailed information. The invention can fast processing of massive network data, small storage space, save a large number of network details, indexing of network packet data using Bloom Filter hash algorithm, classification of the contents of the file retrieval, and the index has the advantages of simple structure, small occupied space, using three different hash function hash computation makes the conflict rate is low. While searching, indexing and matching search quickly and accurately, the time and space efficiency is very good.
【技术实现步骤摘要】
基于数据流结构的海量网络数据查找方法
本专利技术涉及海量数据处理领域,尤其是一种对于海量网络数据的查找方法。
技术介绍
数据查找是指根据查找需求对一个计算机文件或数据库提取所需要数据的一种技术。目前针对文件数据的常见数据查找方法有:线性查找,对分查找,跳步查找等;线性查找是把给定的关键字值与文件中的记录逐个进行比较,直至找到与之匹配的记录为止。这种方法简单易行,但对于海量数据查询时效率低下,难以满足需求。对分查找是将文件中的记录按关键字值大小顺序排列,使用分治法,将文件一分为二,用给定关键字值与中点的记录进行比较,若匹配,则查找成功;否则判断所要查找的记录可能在上半部分,还是在下半部分。然后,对确定的部分继续上述过程,直至找到要求的记录,查找成功;或最后只剩下一个记录仍不能匹配,查找失败。这种方法适用于关键字值是可比较,且有一定结构化性质的,对于非结构化数据来说没法进行顺序排列。跳步查找是先用大步跳过一部分记录,再用较小的步长或顺序查找方法在较小的范围内找到要查找的记录。这些查找方法对于海量数据来说,查找速度较慢,难以达到需求。因此本专利技术提出一种基于数据流结构 ...
【技术保护点】
一种基于数据流结构的海量网络数据查找方法,包括:实时数据的存储方法和实时查询方法,其特征在于,所述实时数据的存储方法为:步骤101配置参数,设一文件阈值F,设置两个大小均为2N的比特向量Bsip、Bdip,N为大于1的正整数,比特向量Bsip、Bdip中的所有2N比特的初始值设置为0,步骤102创建新空网络数据存储文件及源IP/宿IP索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP和网络数据,并从所截取的字节流中提取源IP和宿IP,K为所截取字节流的字 ...
【技术特征摘要】
1.一种基于数据流结构的海量网络数据查找方法,包括:实时数据的存储方法和实时查询方法,其特征在于,所述实时数据的存储方法为:步骤101配置参数,设一文件阈值F,设置两个大小均为2N的比特向量Bsip、Bdip,N为大于1的正整数,比特向量Bsip、Bdip中的所有2N比特的初始值设置为0,步骤102创建新空网络数据存储文件及源IP/宿IP索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP和网络数据,并从所截取的字节流中提取源IP和宿IP,K为所截取字节流的字节数并为正整数,步骤104选取哈希值的取值范围为0到2N-1的哈希函数,对源IP和宿IP进行哈希值计算,得到当前网络报文的源IP和宿IP的哈希值n,再在比特向量Bsip、Bdip中的第n位上置1,保存并形成当前比特向量Bsip、Bdip,同时将当前截取的字节流作为一条数据记录,写入网络数据存储文件,保存并形成当前网络数据存储文件,步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值,则将当前比特向量Bsip、Bdip写入源宿IP索引文件并置于源宿IP索引文件库中,将当前网络数据存储文件存放于网络数据存储文件库中,然后再清空当前比特向量Bsip、Bdip,得到初始值为0的比特向量Bsip、Bdip,返回步骤102;否则,返回步骤103;所述实时查询方法为:步骤201配置一个大小为2N的比特向量Bip,N为大于1的正整数,比特向量Bip中所有2N比特的初始值设置为0,步骤202获取待查源IP或宿IP,采用步骤104所选的哈希函数,对源IP和宿IP进行哈希值计算,得到待查...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。