基于ElasticSearch和Hbase技术的网络传输数据检索系统技术方案

技术编号:21184561 阅读:37 留言:0更新日期:2019-05-22 15:10
本发明专利技术提供一种基于ElasticSearch和Hbase技术的网络传输数据检索系统,包括:数据存储模块,用于将元数据和二进制报文数据存储至ElasticSearch和Hbase数据库;以及数据查询模块,包括:元数据查询单元,用于从ElasticSearch存储库中获取网络数据的元数据;二进制报文数据查询单元,用于根据输入的查询条件,将获取到的二进制报文数据存储到Hbase数据库的result表中;元数据及二进制报文数据查询单元,用于根据输入的查询条件,将其获取到的二进制报文数据存储到Hbase数据库的result表中;同时,获取网络数据的元数据,组合后返回至外部系统;查询任务管理单元,用于进行列表显示、结束进程操作。本发明专利技术满足元数据及二进制报文数据的快速检索,从海量网络数据中准确、快速地抽取出用户关心的相关数据。

Data Retrieval System of Network Transmission Based on Elastic Search and Hbase Technology

The invention provides a network transmission data retrieval system based on Elastic Search and Hbase technology, including: data storage module for storing metadata and binary message data to Elastic Search and Hbase databases; and data query module, including: metadata query unit for obtaining metadata of network data from Elastic Search repository; According to the inquiry conditions, the obtained binary message data is stored in the result table of the Hbase database; the metadata and binary message data inquiry unit are used to store the obtained binary message data into the result table of the Hbase database according to the inputted query conditions; at the same time, the metadata of the network data is obtained and returned after combination. Return to external system; query task management unit for list display and end process operation. The invention satisfies the fast retrieval of metadata and binary message data, and extracts the relevant data concerned by users accurately and rapidly from massive network data.

【技术实现步骤摘要】
基于ElasticSearch和Hbase技术的网络传输数据检索系统
本专利技术属于网络数据分析
,涉及一种基于ElasticSearch和Hbase技术的网络传输数据检索系统。
技术介绍
随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展,人类积累的网络数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积。然而,随着高速发展的信息技术,海量的网络数据信息使得人们难以快速准确的检索出所需要的相关信息。但目前的数据传输系统,无法结合ElasticSearch和Hbase技术,使得数据传输中无法进行快速存储和元数据及二进制报文数据的快速检索,降低系统的查询检索效率。
技术实现思路
专利技术所要解决的课题是:针对目前的数据传输系统无法结合ElasticSearch和Hbase技术,无法进行元数据及二进制报文数据的快速检索,降低系统的查询检索效率的问题。为了解决上述课题,本专利技术提出一种基于ElasticSearch和Hbase技术的网络传输数据检索系统,包括:数据存储模块,用于将接收的网络数据中元数据和二进制报文数据存储至ElasticSearch和Hbase数据库,其中Hbase数据库设置若干个数据分区;和数据查询模块,该数据查询模块包括:元数据查询单元,用于从数据存储模块的ElasticSearch存储库中获取网络数据的元数据;二进制报文数据查询单元,用于根据输入的查询条件,运行若干个任务job分别从数据存储模块的Hbase数据库的各数据分区中获取二进制报文数据,及当其中一个任务job开始运行后将其获取到的二进制报文数据存储到Hbase数据库的result表中;元数据及二进制报文数据查询单元,用于根据输入的查询条件,运行若干个任务job分别从数据存储模块的Hbase数据库的各数据分区中获取二进制报文数据,及当其中一个任务job开始运行后将其获取到的二进制报文数据存储到Hbase数据库的result表中;同时,从数据存储模块的ElasticSearch存储库中获取网络数据的元数据,及将获取的元数据和二进制报文数据组合后返回至外部系统;和查询任务管理单元,用于对当前进行查询的MapReduce任务进行列表显示、结束进程操作。进一步地,作为本专利技术的一种优选技术方案,所述数据存储模块的存储数据量不少于10TB。进一步地,作为本专利技术的一种优选技术方案,所述元数据查询单元将查询数量与设定的阈值比较,当查询数量小于等于设定的阈值时一次获取所有网络数据的元数据,否则指定一个搜索起始位置和每次的搜索数据条数,通过多次调用分批获取网络数据,直到得到所有的网络数据。进一步地,作为本专利技术的一种优选技术方案,所述二进制报文数据查询单元运行任务job采用ACMP算法。进一步地,作为本专利技术的一种优选技术方案,所述二进制报文数据查询单元将Hbase数据库的result表采用jobId返回至外部系统。专利技术效果本专利技术的基于ElasticSearch和Hbase技术的网络传输数据检索系统,可以支持局域网环境下的大规模网络数据的数据检索需求,满足元数据及二进制报文数据的快速检索,从海量网络数据中准确、快速地抽取出用户关心的相关数据。本专利技术的核心思想是基于系统的ElasticSearch和Hbase组件协同合作,通过建立网络数据的存储和索引,包括元数据和二进制报文数据,从而快速准确的获取多条件过滤查询的网络传输数据信息。例如,通过输入查询条件,从大量网络数据中检索出需要的相关网络信息,作为后续数据分析的输入。因此,本专利技术可实现快速高效的网络传输数据的检索。附图说明图1为本专利技术系统的结构示意图。图2为本专利技术中元数据查询单元进行查询的流程图。图3为本专利技术中二进制报文数据查询单元进行查询的流程图。图4为本专利技术中元数据及二进制报文数据单元进行查询的流程图。图5为本专利技术中查询任务管理单元工作的流程图。具体实施方式以下,基于附图针对本专利技术进行详细地说明。如图1所示,本专利技术设计了基于ElasticSearch和Hbase技术的网络传输数据检索系统,主要包括数据存储模块和数据查询模块,其中数据存储模块:此模块为网络数据检索系统提供数据存储支撑,是网络数据检索的基础,通过它把经过处理后的网络数据,存储到数据库。数据查询模块主要包括:元数据查询单元、二进制报文数据查询单元、元数据及二进制报文数据查询单元、查询任务管理单元,其提供查询ElasticSearch和Hbase数据的Rest接口。可达到2亿条数据3秒内返回查询结果,此模块为数据检索提供入口,通过提供给外部系统Rest接口,满足不同的条件组合的查询。同时也对查询任务进行监控和管理。具体地,所述数据存储模块,用于将接收的网络数据中元数据和二进制报文数据存储至ElasticSearch和Hbase数据库,其中Hbase数据库设置若干个数据分区;其实现如下:1)存储数据量不少于10TB,存储速率可达到15000条/秒。2)元数据和二进制报文数据都存储到ElasticSearch和Hbase数据库,但是由于ES不能做二进制报文数据的搜索,所以搜索二进制报文数据需要通过Hbase数据库。其将元数据和二进制报文数据存到ElasticSearch并建立索引。将元数据和二进制报文数据存储到Hbase。RowKey的设计的具体格式为[XX][Long.MAX_VALUE-RecTime][CamerID][LogType][LogID],其中前两位的XX表示预分区的编号:01、02、03......59,总共60个数据分区,实际使用过程不包含里面的[]符号,Long.MAX_VALUE-RecTime代表的是Javaapi中的一个无尽大值(固定的一个值)与当前时间的时间戳的差值,CamerID为载波标识,LogType为数据类型,LogID为数据ID。具体地,所述数据查询模块进行查询的过程实现如下:1)元数据查询单元,进行元数据查询,从数据存储模块的ElasticSearch存储库中获取网络数据的元数据,其过程如图2所示,具体为:a)当只查询元数据时,从ElasticSearch数据库中获取网络数据的元数据。b)默认设置查询的阈值为10000条数据/秒,输入查询条件后,当查询数量小于等于设定的阈值10000条时,一次获取所有网络数据;否则,当查询数量大于10000条时,使用ElasticSearch数据库提供的ScrollAPI,可以指定一个搜索起始位置和每次的搜索数据条数,通过多次调用,分批获取数据,直到拉取所有的数据。这样可以对数据进行分批获取,缓解了性能压力,避免一次获取大量数据,造成系统卡死等问题。c)返回查询结果至外部系统。2)二进制报文数据查询单元进行二进制报文数据查询,其过程如图3所示,具体包括:a)当只查询二进制报文数据时,只从Hbase数据库获取网络数据;b)输入查询条件后,MapReduce同时运行60个任务job,其中每个任务job中都使用ACMP算法,可以增加二进制报文数据的获取速度。c)分别从Hbase数据中的60个数据分区中获取二进制报文数据,这样可以大大节省MapReduce的查询时间。然后,当其中一个任务job开始运行后就会把此本文档来自技高网...

【技术保护点】
1.基于ElasticSearch和Hbase技术的网络传输数据检索系统,其特征在于,包括:数据存储模块,用于将接收的网络数据中元数据和二进制报文数据存储至ElasticSearch和Hbase数据库,其中Hbase数据库设置若干个数据分区;和数据查询模块,所述数据查询模块包括:元数据查询单元,用于从数据存储模块的ElasticSearch存储库中获取网络数据的元数据;二进制报文数据查询单元,用于根据输入的查询条件,运行若干个任务job分别从数据存储模块的Hbase数据库的各数据分区中获取二进制报文数据,及当其中一个任务job开始运行后将其获取到的二进制报文数据存储到Hbase数据库的result表中;元数据及二进制报文数据查询单元,用于根据输入的查询条件,运行若干个任务job分别从数据存储模块的Hbase数据库的各数据分区中获取二进制报文数据,及当其中一个任务job开始运行后将其获取到的二进制报文数据存储到Hbase数据库的result表中;同时,从数据存储模块的ElasticSearch存储库中获取网络数据的元数据,及将获取的元数据和二进制报文数据组合后返回至外部系统;和查询任务管理单元,用于对当前进行查询的MapReduce任务进行列表显示、结束进程操作。...

【技术特征摘要】
1.基于ElasticSearch和Hbase技术的网络传输数据检索系统,其特征在于,包括:数据存储模块,用于将接收的网络数据中元数据和二进制报文数据存储至ElasticSearch和Hbase数据库,其中Hbase数据库设置若干个数据分区;和数据查询模块,所述数据查询模块包括:元数据查询单元,用于从数据存储模块的ElasticSearch存储库中获取网络数据的元数据;二进制报文数据查询单元,用于根据输入的查询条件,运行若干个任务job分别从数据存储模块的Hbase数据库的各数据分区中获取二进制报文数据,及当其中一个任务job开始运行后将其获取到的二进制报文数据存储到Hbase数据库的result表中;元数据及二进制报文数据查询单元,用于根据输入的查询条件,运行若干个任务job分别从数据存储模块的Hbase数据库的各数据分区中获取二进制报文数据,及当其中一个任务job开始运行后将其获取到的二进制报文数据存储到Hbase数据库的result表中;同时,从数据存储模块的ElasticSearch存储库中获取网络数据的元数据,及将获取的元...

【专利技术属性】
技术研发人员:邱祥吉王永程夏延钊刘明明杨家红龚虹瑞
申请(专利权)人:航天恒星科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1