一种基于HDFS大数据存储的数据编辑方法技术

技术编号:32178035 阅读:13 留言:0更新日期:2022-02-08 15:38
一种基于HDFS大数据存储的数据编辑方法,包括以下步骤:步骤一:配置存储策略、同步策略及数据合并策略;步骤二:数据接收服务根据存储策略将近一段时间内的数据存储在热数据存储内存及磁盘中;步骤三:数据同步服务根据同步策略以及数据是否为更新操作将热存储中的数据分别同步到分布式存储中的不同存储空间;步骤四:数据合并服务根据数据合并策略将分布式存储中两个存储空间的数据进行数据合并;步骤五:数据查询服务查询数据须先查询热存储,命中则返回,否则分别查询分布式存储两个存储空间,合并并返回查询结果。该方法实现了HDFS存储中的数据可更新功能,同时热存储中的数据提升访问效率。提升访问效率。提升访问效率。

【技术实现步骤摘要】
一种基于HDFS大数据存储的数据编辑方法


[0001]本专利技术涉及大数据存储
,具体为一种基于HDFS大数据存储的数据编辑方法。

技术介绍

[0002]HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault

tolerent)的特点,并且设计用来部署在低廉的(low

cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。非常多的非关系型数据库(NoSQL)底层存储采用HDFS,它们支持超大数据量存储、快速访问及数据分析,但它们中大多数并不支持数据更新操作。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足之处,提供一种基于HDFS大数据存储的数据编辑方法,该方法实现了HDFS存储中的数据可更新功能,同时热存储中的数据提升访问效率。
[0004]一种基于HDFS大数据存储的数据编辑方法,包括以下步骤:步骤一:配置存储策略、同步策略及数据合并策略;步骤二:数据接收服务根据存储策略将近一段时间内的数据存储在热数据存储内存及磁盘中;步骤三:数据同步服务根据同步策略以及数据是否为更新操作将热存储中的数据分别同步到分布式存储中的不同存储空间;步骤四:数据合并服务根据数据合并策略将分布式存储中两个存储空间的数据进行数据合并;步骤五:数据查询服务查询数据须先查询热存储,命中则返回,否则分别查询分布式存储两个存储空间,合并并返回查询结果。
[0005]而且,步骤一中的配置存储策略、同步策略及数据合并策略具体包括:(1)配置存储策略以确定热存储中可存储的数据量,可选择时间式存储策略或空间式存储策略;时间式存储策略规定一定时间范围内的数据存储在热存储中;空间式存储策略规定一定数据量内的数据存储在热存储中;(2)配置同步策略以确定热存储中的数据以何种方式同步至分布式文件存储HDFS中;可选择百分比同步策略或全量同步策略;百分比同步策略将热存储中一定百分比的数据量同步至分布式文件存储中;全量同步策略将热存储中全量数据同步至分布式文件存储中;(3)配置数据合并策略以确定分布式存储中更新数据与旧数据合并操作的触发方式,可选择定时式策略或定量式策略;定时式策略规定数据合并操作在指定时间触发;定量式策略规定数据合并操作在更新数据达到一定数量时触发。
[0006]而且,步骤二包括以下子步骤:(1)数据接收服务接收数据插入或数据更新请求,并将数据存入热存储空间;(2)热存储空间分为插入数据存储空间和更新数据存储空间,插入数据存储空间用以存储新增请求的数据,更新数据存储空间用以存储更新请求的数据;(3)对于新增数据请求,将数据存储在热存储中的插入数据存储空间;对于更新数据请求,将数据存储在热存储中的更新数据存储空间。
[0007]而且,步骤三中包括以下子步骤:(1)数据同步服务定时启动,读取热存储数据,同步至分布式存储;(2)分布式存储中分为数据存储空间和待更新数据存储空间;数据存储空间存储合并后数据,待更新数据存储空间存储待更新数据。
[0008]而且,步骤四中的数据合并策略包括:数据合并服务定时启动,触发数据合并操作时,读取分布式存储中两个存储空间的数据并将待更新数据与旧版数据进行合并,合并后写回分布式存储。
[0009]而且,步骤五中的数据查询策略包括:(1)数据查询服务接收数据查询请求,并在查询完成后返回查询结果;(2)首先查询热存储中两个存储空间,若存在对应数据则将数据合并后返回查询结果;(3)若热存储中不存在对应数据,则查询分布式存储中两个存储空间,将数据合并后返回查询结果。
[0010]本专利技术的优点和技术效果是:本专利技术的一种基于HDFS大数据存储的数据编辑方法,利用HDFS支持超大数据量存储、快速访问及数据分析的优势,同时解决了其不支持数据更新操作的问题,并且在实现基于HDFS的数据可编辑更新功能的基础上,还可在一定情况下提高数据访问效率。
附图说明
[0011]图1是本专利技术的数据写入流程图;图2是本专利技术的数据查询流程图。
具体实施方式
[0012]为能进一步了解本专利技术的内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。需要说明的是,本实施例是描述性的,不是限定性的,不能由此限定本专利技术的保护范围。
[0013]一种基于HDFS大数据存储的数据编辑方法,如图1所示,数据插入或更新先存储在热存储中,在一定条件下同步至分布式存储中,热存储和分布式存储中都分为两个存储空间分别存储更新数据和新增数据,分布式存储中的数据根据策略自动合并。如图2所示,数据查询请求会先查询热存储,命中则返回,否则查询分布式存储。包括步骤如下:步骤一:配置存储策略、同步策略及数据合并策略,其中包括:配置存储策略以确定热存储中可存储的数据量,可选择时间式存储策略或空间式存储策略。时间式存储策略规定一定时间范围内的数据存储在热存储中;空间式存储策
略规定一定数据量内的数据存储在热存储中。
[0014]配置同步策略以确定热存储中的数据以何种方式同步至分布式文件存储(HDFS)中。可选择百分比同步策略或全量同步策略。百分比同步策略将热存储中一定百分比的数据量同步至分布式文件存储中;全量同步策略将热存储中全量数据同步至分布式文件存储中。
[0015]③
配置数据合并策略以确定分布式存储中更新数据与旧数据合并操作的触发方式,可选择定时式策略或定量式策略。定时式策略规定数据合并操作在指定时间触发;定量式策略规定数据合并操作在更新数据达到一定数量时触发。
[0016]步骤二:数据接收服务根据存储策略将近一段时间内的数据存储在热数据存储(内存或磁盘)中;数据接收服务接收数据插入或数据更新请求,并将数据存入热存储空间。
[0017]②
热存储空间分为插入数据存储空间和更新数据存储空间,插入数据存储空间用以存储新增请求的数据,更新数据存储空间用以存储更新请求的数据。
[0018]③
对于新增数据请求,将数据存储在热存储中的插入数据存储空间;对于更新数据请求,将数据存储在热存储中的更新数据存储空间。
[0019]步骤三:数据同步服务根据同步策略以及数据是否为更新操作将热存储中的数据分别同步到分布式存储中的不同存储空间;

数据同步服务定时启动,读取热存储数据,同步至分布式存储。
[0020]②
分布式存储中分为数据存储空间和待更新数据存储空间;数据存储空间存储合并后数据,待更新数据存储空间存储待更新数据。
[0021]步骤四:数据合并服务根据数据合并策略将分布式存储中两个存储空间的数据进行数据合并;数据合并服务定时启动,触发数据合并操作时,读取分布式存储中两个存储空间的数据并将待更新数据与旧版数据进行合并,合并后写回分布式存储。
[0022]步骤五:数据查询服务查本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于HDFS大数据存储的数据编辑方法,其特征在于,包括以下步骤:步骤一:配置存储策略、同步策略及数据合并策略;步骤二:数据接收服务根据存储策略将近一段时间内的数据存储在热数据存储内存及磁盘中;步骤三:数据同步服务根据同步策略以及数据是否为更新操作将热存储中的数据分别同步到分布式存储中的不同存储空间;步骤四:数据合并服务根据数据合并策略将分布式存储中两个存储空间的数据进行数据合并;步骤五:数据查询服务查询数据须先查询热存储,命中则返回,否则分别查询分布式存储两个存储空间,合并并返回查询结果。2.根据权利要求1所述的一种基于HDFS大数据存储的数据编辑方法,其特征在于:所述步骤一中的配置存储策略、同步策略及数据合并策略具体包括:(1)配置存储策略以确定热存储中可存储的数据量,可选择时间式存储策略或空间式存储策略;时间式存储策略规定一定时间范围内的数据存储在热存储中;空间式存储策略规定一定数据量内的数据存储在热存储中;(2)配置同步策略以确定热存储中的数据以何种方式同步至分布式文件存储HDFS中;可选择百分比同步策略或全量同步策略;百分比同步策略将热存储中一定百分比的数据量同步至分布式文件存储中;全量同步策略将热存储中全量数据同步至分布式文件存储中;(3)配置数据合并策略以确定分布式存储中更新数据与旧数据合并操作的触发方式,可选择定时式策略或定量式策略;定时式策略规定数据合并操作在指定时间触发;定量式策略规定数据合并操作在更新数据达到一定数量时触发。3.根据权利要求1所...

【专利技术属性】
技术研发人员:胡浩瀚郭正雄王汝英张立杨少春张海涛朱传晶刘德强张志陶
申请(专利权)人:国网信息通信产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1