实时流数据的存储方法及装置制造方法及图纸

技术编号:19240332 阅读:22 留言:0更新日期:2018-10-24 03:54
本发明专利技术公开了一种实时流数据的存储方法及装置,涉及信息处理技术领域,主要目的是解决由实时系统传来的一条条数据所产生大量的parquet文件,会导致查询系统在进行查询操作时,访问所有的parquet文件,影响查询性能的问题。技术方案包括:接收实时流数据;对所述实时流数据进行解析,得到解析结果;根据所述解析结果,确定所述实时流数据的数据条数;判断所述实时流数据的数据条数是否达到预设数据条数;如果是,则将所述实时流数据的解析结果写入分布式数据查询引擎。主要用于实时流数据的存储。

【技术实现步骤摘要】
实时流数据的存储方法及装置
本专利技术涉及信息处理
,尤其涉及一种实时流数据的存储方法及装置。
技术介绍
随着信息处理逐渐向大数据处理方向发展,一种适用于大数据查询的新的分布式数据查询引擎Impala已经进入人们的视野。Impala可以提供结构化查询语言结构SQL的定义,并且在实时获取到的数据流经过解析后,能够将实时数据存储在Impala中。目前,现有的在实时系统传来数据流时,每传来一条数据,就会将数据存储进Impala中,并生成这条数据的parquet文件,依次地,每当传来一条数据进行存储后就会产生一个parquet文件,由实时系统传来的一条条数据所产生大量的parquet文件,会导致查询系统在进行查询操作时,访问所有的parquet文件,影响查询性能,从而降低查询的效率。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种实时流数据的存储方法及装置,主要目的是解决由实时系统传来的一条条数据所产生大量的parquet文件,会导致查询系统在进行查询操作时,访问所有的parquet文件,影响查询性能的问题。借由上述技术方案,本专利技术提供的一种实时流数据的存储方法,包括:接收实时流数据;对所述实时流数据进行解析,得到解析结果;根据所述解析结果,确定所述实时流数据的数据条数;判断所述实时流数据的数据条数是否达到预设数据条数;如果是,则将所述实时流数据的解析结果写入分布式数据查询引擎。进一步地,所述判断所述实时流数据的数据条数未达到预设数据条数之后,所述方法还包括:判断首次接收到所述实时流数据的时间到当前时间所经过的时间是否达到预设时间间隔,或者,判断自上次数据写入所述分布式数据查询引擎的时间到当前时间所经过的时间是否达到预设时间间隔;如果是,则将所述实时流数据的解析结果写入分布式数据查询引擎。进一步地,所述方法还包括:采用第一线程执行所述判断所述实时流数据的数据条数是否达到预设数据条数,以及所述判断首次接收到所述实时流数据的时间点到当前时间所经过的时间是否达到预设时间间隔,或者,判断自上次数据写入所述分布式数据查询引擎的时间到当前时间所经过的时间是否达到预设时间间隔的步骤;采用与所述第一线程独立的第二线程执行将所述实时流数据的解析结果写入分布式数据查询引擎的步骤。进一步地,在判断所述实时流数据的数据条数是否达到预设数据条数之前,所述方法还包括:在与所述第一线程、所述第二线程分别独立的第三线程中配置所述预设数据条数,以及在与所述第一线程、所述第二线程、所述第三线程分别独立的第四线程中配置所述预设时间间隔。进一步地,在对所述实时流数据进行解析,得到解析结果后,所述方法还包括:将所述解析结果存储进预设缓存中;根据所述解析结果,确定所述实时流数据的数据条数包括:根据所述预设缓存中存储的解析结果,确定所述实时流数据的数据条数。借由上述技术方案,本专利技术提供的一种实时流数据的存储装置,包括:接收单元,用于接收实时流数据;解析单元,用于对所述实时流数据进行解析,得到解析结果;确定单元,用于根据所述解析结果,确定所述实时流数据的数据条数;第一判断单元,用于判断所述实时流数据的数据条数是否达到预设数据条数;写入单元,用于如果达到预设数据条数,则将所述实时流数据的解析结果写入分布式数据查询引擎。进一步地,所述装置还包括:第二判断单元,所述第二判断单元,用于判断首次接收到所述实时流数据的时间到当前时间所经过的时间是否达到预设时间间隔,或者,判断自上次数据写入所述分布式数据查询引擎的时间到当前时间所经过的时间是否达到预设时间间隔;所述写入单元,还用于如果达到预设时间间隔,则将所述实时流数据的解析结果写入分布式数据查询引擎。进一步地,所述装置还包括:所述第一判断单元,具体用于采用第一线程执行所述判断所述实时流数据的数据条数是否达到预设数据条数;所述第二判断单元,具体用于采用第一线程执行所述判断首次接收到所述实时流数据的时间点到当前时间所经过的时间是否达到预设时间间隔,或者,判断自上次数据写入所述分布式数据查询引擎的时间到当前时间所经过的时间是否达到预设时间间隔的步骤;所述写入单元,具体用于采用与所述第一线程独立的第二线程执行将所述实时流数据的解析结果写入分布式数据查询引擎的步骤。进一步地,所述装置还包括:配置单元,用于在与所述第一线程、所述第二线程分别独立的第三线程中配置所述预设数据条数,及在与所述第一线程、所述第二线程、所述第三线程分别独立的第四线程中配置所述预设时间间隔。进一步地,所述装置还包括:存储单元,存储单元,用于将所述解析结果存储进预设缓存中;所述确定单元,具体用于根据所述预设缓存中存储的解析结果,确定所述实时流数据的数据条数。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供的一种实时流数据的存储方法及装置,首先接收实时流数据;对所述实时流数据进行解析,得到解析结果;根据所述解析结果,确定所述实时流数据的数据条数;判断所述实时流数据的数据条数是否达到预设数据条数;如果是,则将所述实时流数据的解析结果写入分布式数据查询引擎。与现有通过将实时系统传来的一条条数据直接存储在Impala中,产生大量的parquet文件相比,本专利技术实施例通过将接收到的实时流数据进行解析,判断解析后实时流数据数据条数是否达到预设数据条数,若达到,则将接收到的所有实时流数据解析结果写入分布式数据查询引擎,使得多个实时流数据在分布式数据查询引擎中以一个parquet文件形式进行存储,减少了parquet文件的数量,提高了分布式数据查询引擎进行查询操作时,对parquet文件访问的速度,从而提高查询的效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了专利技术实施例提供的一种实时流数据的存储方法的流程图;图2示出了专利技术实施例提供的另一种实时流数据的存储方法的流程图图3示出了专利技术实施例提供的一种实时流数据的存储装置的方框图;图4示出了专利技术实施例提供的另一种实时流数据的存储装置的方框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供一种实时流数据的存储方法,如图1所示,所述方法包括:101、接收实时流数据。其中,所述实时流数据为实时系统实时采集的数据,对于分布式数据查询引擎Impala来说,可以接收到实时流系统实时传输的数据,以便进行数据的查询、存储等操作。由于实时系统对数据的实时性要求比较高,对于接收到的实时流数据需要及时存储在查询引擎中的,以便满足对数据的实时性要求,确保查询结果的准确性,但是,直接将实时接收的每本文档来自技高网...

【技术保护点】
1.一种实时流数据的存储方法,其特征在于,包括:接收实时流数据;对所述实时流数据进行解析,得到解析结果;根据所述解析结果,确定所述实时流数据的数据条数;判断所述实时流数据的数据条数是否达到预设数据条数;如果是,则将所述实时流数据的解析结果写入分布式数据查询引擎。

【技术特征摘要】
1.一种实时流数据的存储方法,其特征在于,包括:接收实时流数据;对所述实时流数据进行解析,得到解析结果;根据所述解析结果,确定所述实时流数据的数据条数;判断所述实时流数据的数据条数是否达到预设数据条数;如果是,则将所述实时流数据的解析结果写入分布式数据查询引擎。2.根据权利要求1所述的方法,其特征在于,在判断所述实时流数据的数据条数未达到预设数据条数后,所述方法还包括:判断首次接收到所述实时流数据的时间到当前时间所经过的时间是否达到预设时间间隔,或者,判断自上次数据写入所述分布式数据查询引擎的时间到当前时间所经过的时间是否达到预设时间间隔;如果是,则将所述实时流数据的解析结果写入分布式数据查询引擎。3.根据权利要求2所述的方法,其特征在于:采用第一线程执行所述判断所述实时流数据的数据条数是否达到预设数据条数,以及所述判断首次接收到所述实时流数据的时间点到当前时间所经过的时间是否达到预设时间间隔,或者,判断自上次数据写入所述分布式数据查询引擎的时间到当前时间所经过的时间是否达到预设时间间隔的步骤;采用与所述第一线程独立的第二线程执行将所述实时流数据的解析结果写入分布式数据查询引擎的步骤。4.根据权利要求3所述的方法,其特征在于,在判断所述实时流数据的数据条数是否达到预设数据条数之前,所述方法还包括:在与所述第一线程、所述第二线程分别独立的第三线程中配置所述预设数据条数,以及在与所述第一线程、所述第二线程、所述第三线程分别独立的第四线程中配置所述预设时间间隔。5.根据权利要求1至4任一项所述的方法,其特征在于,在对所述实时流数据进行解析,得到解析结果后,所述方法还包括:将所述解析结果存储进预设缓存中;根据所述解析结果,确定所述实时流数据的数据条数包括:根据所述预设缓存中存储的解析结果,确定所述实时流数据的数据条数。6.一种实时流数据的存储装置,其特征在于,包括:接收...

【专利技术属性】
技术研发人员:胡信
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1