一种温数据存储方法技术

技术编号:23851939 阅读:24 留言:0更新日期:2020-04-18 09:06
本发明专利技术属于温数据存储领域,尤其时涉及一种温数据存储方法,包括:每日通过服务器以及相关平台录入数据;根据录入数据时的日期对数据赋值n;对当日日期进行赋值,设置成m,通过算法算出(m‑n)的值,即为数据关联的关键词,将关键词关联数据;设置阈值a;将数据关联的关键词(m‑n)与阈值a进行大小比较,当出现(m‑n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。本发明专利技术使用Parquet格式和Snappy压缩算法在提升大范围数据的读取速度的同时,能够减少住数据存储的用量。

A method of warm data storage

【技术实现步骤摘要】
一种温数据存储方法
本专利技术涉及温数据存储领域,尤其涉及一种温数据存储方法。
技术介绍
当前架构的存储方案下,是将全部数据存储在单一的数据库中,然而传统的数据库为了满足一些特定的需求,比如:强一致性,事务性,大数据量下的高性能读写等等,往往对于大范围大批量的分析处理无法得到很好的优化,从而导致数据库会需要进行全表扫描的操作,从而耗费大量的时间。另外根据业务场景,大部分的离线分析计算不会需要使用到全部的数据量,往往时间跨度在半年至一年之间,所以只保存需要范围内的数据,也可以提升分析计算的效率并且控制硬件的使用成本。为此,我们提出一种温数据存储方法来解决上述问题。
技术实现思路
1、专利技术目的。本专利技术提出了一种温数据存储方法,可以定期对数据进行清理,同时便于对数据进行索引和分组,对于硬件的需求较低。2、本专利技术所采用的技术方案。一种温数据存储方法,具体包括以下步骤:S1、每日通过服务器以及相关平台录入数据;S2、根据录入数据时的日期对数据赋值n;S3、将数据以Parquet格式存入HDFS;S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;S5、设置阈值a;S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。在上述的一种温数据存储方法中,在进行所述S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。在上述的一种温数据存储方法中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。在上述的一种温数据存储方法中,在进行所述S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。3、本专利技术所产生的技术效果。通过将开源的集群运算框架Spark和开源的面向列的格式Parquet进行配合,再将数据以一定的方式进行索引分组,让大范围的数据读取的性能得到大幅度的提升;与此同时,数据只保存业务需求的时间长度,如半年,那么数据规模相对适中,所以使用价格和性能都相对适中的混合硬盘进行存储,从而控制成本。附图说明图1为本专利技术提出的一种温数据存储方法的步骤图。具体实施方式以下实施例仅处于说明性目的,而不是想要限制本专利技术的范围。实施例一种温数据存储方法,具体包括以下步骤:S1、每日通过服务器以及相关平台录入数据;S2、根据录入数据时的日期对数据赋值n;S3、将数据以Parquet格式存入HDFS;S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;S5、设置阈值a;S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。其中,在进行S1步骤前先对数据进行检测,检测数据中是否有与现有数据相重复的,检测到重复的数据不予录入。其中,在检测到重复数据后,根据当日的日期重新对存储中的现有数据进行m的赋值。其中,在进行S8步骤时,根据数据的索引次数得出数据的得分值,将数据的得分值进行加权处理,得到每个物品排序权重值,根据权重值对数据进行分组。上述实施例为本专利技术较佳的实施方式,但本专利技术的实施方式并不受上述实施例的限制,其他的任何未背离本专利技术的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种温数据存储方法,其特征在于,具体包括以下步骤:/nS1、每日通过服务器以及相关平台录入数据;/nS2、根据录入数据时的日期对数据赋值n;/nS3、将数据以Parquet格式存入HDFS;/nS4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;/nS5、设置阈值a;/nS6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;/nS7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。/n

【技术特征摘要】
1.一种温数据存储方法,其特征在于,具体包括以下步骤:
S1、每日通过服务器以及相关平台录入数据;
S2、根据录入数据时的日期对数据赋值n;
S3、将数据以Parquet格式存入HDFS;
S4、对当日日期进行赋值,设置成m,通过算法算出(m-n)的值,即为数据关联的关键词,将关键词关联数据;
S5、设置阈值a;
S6、将数据关联的关键词(m-n)与阈值a进行大小比较,当出现(m-n)较大时,对数据进行清除处理,当出现a较大时,不对数据进行处理;
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据...

【专利技术属性】
技术研发人员:冯报安杨晶生
申请(专利权)人:上海麦克风文化传媒有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1