一种数据存储方法及装置制造方法及图纸

技术编号:15763243 阅读:53 留言:0更新日期:2017-07-06 00:31
本发明专利技术公开了一种数据存储方法及装置,所述方法包括:根据接收到的待存储的数据,在所述数据中查找预设的第一字段,将所述数据存储到ElasticSearch中,并根据所述预设的第一字段建立索引并保存;根据接收到的所述待存储的数据,在所述数据中获取预设的第二字段,将所述数据存储到Parquet中,并在目标目录下建立索引并保存。由于在本发明专利技术实施例中,当接收到待存储的数据时,根据预设的第一字段在ElasticSearch中建立所述数据的索引并保存,并在所述数据中获取预设的第二字段,目标目录下建立数据的索引并保存,从而实现了ElasticSearch和Parquet中的数据同步更新。

Data storage method and device

The invention discloses a data storage method and apparatus, the method includes: according to the received data to be stored, the first field find presupposition in the data, the data is stored in ElasticSearch, and according to the first field of the preset indexed and stored; according to the received the data to be stored, to obtain second field preset in the data, the data is stored in Parquet, and in the target directory indexed and stored. In the embodiment of the invention, when receiving the data to be stored, according to the first preset field in the ElasticSearch to build the data index and save, and obtain second field preset in the data in the target directory to establish data indexing and preservation, so as to realize the synchronous update of ElasticSearch and Parquet the data in the.

【技术实现步骤摘要】
一种数据存储方法及装置
本专利技术属于数据处理
,尤其涉及一种数据存储方法及装置。
技术介绍
随着科技的进步,视频采集设备使用频率也越来越高,在道路管理系统中,通过每个卡口安装的视频采集设备来采集车辆的信息,实现对该卡口车辆的监控,给道路管理带来了很大的便利。然而,随着城市化进程的加速,经济的飞速发展,汽车的数量呈现出爆炸式增长,安装在每个卡口的视频采集设备每天采集到的车辆的信息从几百万条上升到了几千万条,甚至上亿条,数据量飞速增长,在数据查询时面临着较大的压力。现有技术中,数据在弹性搜索(ElasticSearch)中存储时是针对每条数据的全文建立索引,每条数据的所有字段的信息全部包含在一张表中,能满足实时检索(单表查询),即对单条数据进行查询的需求,但是完全无法满足实时分析(多表关联查询)的需求。数据在列式文件(Parquet)中存储时,Parquet中采用列式存储结构,列式存储结构是将不同数据中对应相同字段的数据进行聚合存储,即针对每条数据中对应的不同字段分别存储在对应该字段的表中,虽然这种存储方法能满足实时分析的需求,但是实时检索时的效率并不高,需要进行全表扫描进行筛选。在数据存储时为了满足对实时检索和实时分析的需求,ElasticSearch中和Parquet中已经保存了供实时检索和实时分析的数据,但接收到新的待存储的数据,如何将该数据同时更新到ElasticSearch中和Parquet中,成为一个亟待解决的问题。
技术实现思路
本专利技术提供一种数据存储方法及装置,用以实现将数据同时更新到ElasticSearch中和Parquet中。本专利技术实施例公开了一种数据存储方法,所述方法包括:根据接收到的待存储的数据,在所述数据中查找预设的第一字段,将所述数据存储到弹性搜索ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述数据建立索引并保存;根据接收到的所述待存储的数据,在所述数据中查找预设的第二字段,将所述数据存储到列式文件Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存,所述第一字段和第二字段不同或部分相同。进一步地,所述将所述数据存储到Parquet中包括:将所述数据缓存到分布式计算框架Spark的弹性分布式数据集RDD中;判断所述RDD中缓存的数据是否满足写入条件,如果是,将RDD中缓存的数据写入到Parquet中。进一步地,所述判断所述RDD中缓存的数据是否满足写入条件包括以下至少一种:判断所述RDD中缓存的数据的数据量是否达到设定的容量阈值;和判断当前是否为数据写入的时间点;和判断所述Spark的资源使用率是否小于设定阈值。进一步地,所述方法还包括:接收数据备份请求,将Parquet中存储的数据备份到其他存储空间。进一步地,当将数据写入Parquet中时采用RDD时,所述将Parquet中存储的数据备份到其他存储空间包括:将RDD中缓存的数据写入Parquet中,之后将Parquet中存储的数据备份到其他存储空间。进一步地,所述方法还包括:接收数据还原请求;针对所述其他存储空间中备份的每条备份数据,在所述备份数据中查找预设的第二字段,将所述备份数据存储到Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存;在所述备份数据中查找预设的第一字段,将所述备份数据存储到ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述备份数据建立索引并保存。进一步地,所述根据所述预设的第一字段在ElasticSearch中针对所述数据建立索引并保存包括:在ElasticSearch中针对所述数据的所述第一字段建立倒排索引,并保存所述倒排索引。本专利技术实施例公开了一种数据存储装置,所述装置包括:第一存储模块,用于根据接收到的待存储的数据,在所述数据中查找预设的第一字段,将所述数据存储到弹性搜索ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述数据建立索引并保存;第二存储模块,用于根据接收到的所述待存储的数据,在所述数据中查找预设的第二字段,将所述数据存储到列式文件Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存,所述第一字段和第二字段不同或部分相同。进一步地,所述第二存储模块,具体用于将所述数据缓存到分布式计算框架Spark的弹性分布式数据集RDD中;判断所述RDD中缓存的数据是否满足写入条件,如果是,将RDD中缓存的数据写入到Parquet中。进一步地,所述第二存储模块,具体用于采用以下至少一种方式判断所述RDD中缓存的数据是否满足写入条件:判断所述RDD中缓存的数据的数据量是否达到设定的容量阈值;和判断当前是否为数据写入的时间点;和判断所述Spark的资源使用率是否小于设定阈值。进一步地,所述装置还包括:备份模块,用于接收数据备份请求,将Parquet中存储的数据备份到其他存储空间。进一步地,所述备份模块,具体用于当将数据写入Parquet中时采用RDD时,将RDD中缓存的数据写入Parquet中,之后将Parquet中存储的数据备份到其他存储空间。进一步地,所述装置还包括:还原模块,用于接收数据还原请求;针对所述其他存储空间中备份的每条备份数据,在所述备份数据中查找预设的第二字段,将所述备份数据存储到Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存;在所述备份数据中查找预设的第一字段,将所述备份数据存储到ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述备份数据建立索引并保存。进一步地,所述第一存储模块,具体用于在ElasticSearch中针对所述数据的所述第一字段建立倒排索引,并保存所述倒排索引。本专利技术实施例提供了一种数据存储方法及装置,所述方法包括:根据接收到的待存储的数据,在所述数据中查找预设的第一字段,将所述数据存储到弹性搜索ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述数据建立索引并保存;根据接收到的所述待存储的数据,在所述数据中查找预设的第二字段,将所述数据存储到列式文件Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存,所述第一字段和第二字段不同或部分相同。由于在本专利技术实施例中,当接收到待存储的数据时,获取所述数据中的预设的第一字段,根据预设的第一字段在ElasticSearch中建立所述数据的索引并保存,并在所述数据中获取预设的第二字段,目标目录下建立数据的索引并保存,从而实现了ElasticSearch和Parquet中的数据同步更新。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发本文档来自技高网...
一种数据存储方法及装置

【技术保护点】
一种数据存储方法,其特征在于,所述方法包括:根据接收到的待存储的数据,在所述数据中查找预设的第一字段,将所述数据存储到弹性搜索ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述数据建立索引并保存;根据接收到的所述待存储的数据,在所述数据中查找预设的第二字段,将所述数据存储到列式文件Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存,所述第一字段和第二字段不同或部分相同。

【技术特征摘要】
1.一种数据存储方法,其特征在于,所述方法包括:根据接收到的待存储的数据,在所述数据中查找预设的第一字段,将所述数据存储到弹性搜索ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述数据建立索引并保存;根据接收到的所述待存储的数据,在所述数据中查找预设的第二字段,将所述数据存储到列式文件Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存,所述第一字段和第二字段不同或部分相同。2.如权利要求1所述的方法,其特征在于,所述将所述数据存储到Parquet中包括:将所述数据缓存到分布式计算框架Spark的弹性分布式数据集RDD中;判断所述RDD中缓存的数据是否满足写入条件,如果是,将RDD中缓存的数据写入到Parquet中。3.如权利要求2所述的方法,其特征在于,所述判断所述RDD中缓存的数据是否满足写入条件包括以下至少一种:判断所述RDD中缓存的数据的数据量是否达到设定的容量阈值;和判断当前是否为数据写入的时间点;和判断所述Spark的资源使用率是否小于设定阈值。4.如权利要求1或2所述的方法,其特征在于,所述方法还包括:接收数据备份请求,将Parquet中存储的数据备份到其他存储空间。5.如权利要求4所述的方法,其特征在于,当将数据写入Parquet中时采用RDD时,所述将Parquet中存储的数据备份到其他存储空间包括:将RDD中缓存的数据写入Parquet中,之后将Parquet中存储的数据备份到其他存储空间。6.如权利要求4所述的方法,其特征在于,所述方法还包括:接收数据还原请求;针对所述其他存储空间中备份的每条备份数据,在所述备份数据中查找预设的第二字段,将所述备份数据存储到Parquet中,并在所述Parquet的各目录信息中查找所述第二字段对应的目标目录,在所述目标目录下建立所述数据的索引并保存;在所述备份数据中查找预设的第一字段,将所述备份数据存储到ElasticSearch中,并根据所述预设的第一字段在ElasticSearch中针对所述备份数据建立索引并保存。7.如权利要求1所述的方法,其特征在于,所述根据所述预设的第一字段在ElasticSearch中针对所述数据建立索引并保存包括:在ElasticSearch中针对所述数据的所述第一字段建立倒排索引,并保存所述倒排...

【专利技术属性】
技术研发人员:王亮朱林浩黄乐
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1