The invention discloses a multi attribute indexing method based on data flow, which comprises the storage method of real-time data and the real-time inquiry method. The network data is arriving in a data stream, the need for network data reduction, the specific length of each network packet interception data will form a byte stream byte stream according to a specific data file storage, and extract the byte stream in the source IP, Su IP, source port, destination port and other attribute information combination structure of the source IP, Su IP, source port, destination port attribute, multiple attribute information, attribute information of Bloom using Bloom filter Filter algorithm to construct the index file, multi attribute hash mapping for each byte stream to the same index structure, small occupied space and storage information, and use three different hash function reduces the hash collision rate; real time query, can search the index file in accordance with the combination of multiple attribute matching, then the data storage file Search, get detailed information, query quickly and accurately.
【技术实现步骤摘要】
基于数据流的多属性索引方法
本专利技术涉及海量数据处理领域,尤其是一种对于海量网络数据的多属性索引建立和查找方法。
技术介绍
在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值得集合和相应的指向表中物理标识这些值得数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。随着信息技术的快速发展,社会进入大数据时代,对于海量数据的查找成为研究的热点,大量结构化、非结构化数据需要相应的方法进行查找。目前对于海量数据的查询一般是基于大型数据库的,通过分布式计算技术、表分区技术和查询分解技术来对海量数据进行查询,这种方法主要针对结构化数据;对于非结构化数据的查找一般基于索引技术,通过对数据进行哈希建立索引,按照索引进行查找以减少查找工作量,查找速度较快,目前主流的哈希算法有MD5算法、Bit-Map算法、BloomFilter算法等,MD5算法是将数据进行运算后得到一个128位的信息摘要,将原有数据压缩,使得索引结构存储空间减小,但信息摘要仍然占用较大的存储空间;Bit-Ma ...
【技术保护点】
一种基于数据流的多属性索引方法,包括:实时数据的存储方法和实时查询方法,其特征在于,所述实时数据的存储方法为:步骤101配置参数,设一文件阈值F,设置一个大小为2N的比特向量B,N为大于1的正整数,比特向量B中的所有2N比特的初始值设置为0,步骤102创建新空网络数据存储文件及索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP、源端口、宿端口和网络数据,并从所截取的字节流中提取源IP、宿IP、源端口和宿端口,对源IP、宿IP、源端口和宿端口属性进行组合构 ...
【技术特征摘要】
1.一种基于数据流的多属性索引方法,包括:实时数据的存储方法和实时查询方法,其特征在于,所述实时数据的存储方法为:步骤101配置参数,设一文件阈值F,设置一个大小为2N的比特向量B,N为大于1的正整数,比特向量B中的所有2N比特的初始值设置为0,步骤102创建新空网络数据存储文件及索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP、源端口、宿端口和网络数据,并从所截取的字节流中提取源IP、宿IP、源端口和宿端口,对源IP、宿IP、源端口和宿端口属性进行组合构造,得到源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,K为所截取字节流的字节数并为正整数,步骤104将哈希值的取值范围选定为0到2N-1,分别对源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到当前网络报文的源IP属性的哈希值n1、宿IP属性的哈希值n2、源IP端口属性组合值的哈希值n3、宿IP端口属性组合值的哈希值n4及四元组属性组合值的哈希值n5,再分别在比特向量B中的第n1、n2、n3、n4及n5位上置1,保存并形成当前比特向量B,同时将当前截取的字节流作为一条数据记录,写入网络数据存储文件,保存并形成当前网络数据存储文件,步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值,则将当前比特向量B写入索引文件并置于索引文件库中,将当前网络数据存储文件存放于网络数据存储文件库中,然后再清空当前比特向量B,得到初始值为0的比特向量B,返回步骤102;否则,返回步骤103;所述实时查询方法为:步骤201配置一个大小为2N的比特向量BC,N为大于1的正整数,比特向量BC中所有2N比特的初始值设置为0,步骤202获取待查源IP、宿IP、源端口和宿端口属性信息,对待查源IP、宿IP、源端口和宿端口属性进行组合构造,得到待查源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,采用步骤104所述的哈希值计算,分别对待查源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到待查源IP属性的哈希值n′1、宿IP属性的哈希值n′2、源IP端口属性组合值的哈希值n′3、宿IP端口属性组合值的哈希值n′4及四元组属性组合值的哈希值n′5,再分别在比特向量BC中的第n′1、n′2、n′3、n′4及n′5位上置1,保存并形成当前比特向量BC,步骤203将当前比特向量BC与索引文件库中的每个索引文件进行逐个匹配,查找出第n′1、n′2、n′3、n′4及n′5位位置上为1的索引文件,在根据查到的索引文件,从网络数据存储文件库中查找出相应的网络数据存储文件,进而获得字节流、网络报文。2.根据权利要求1所述的基于数据流的多属性...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。