一种温数据存储方法技术

技术编号：23851939 阅读：24 留言：0更新日期：2020-04-18 09:06

本发明专利技术属于温数据存储领域，尤其时涉及一种温数据存储方法，包括：每日通过服务器以及相关平台录入数据；根据录入数据时的日期对数据赋值n；对当日日期进行赋值，设置成m，通过算法算出(m‑n)的值，即为数据关联的关键词，将关键词关联数据；设置阈值a；将数据关联的关键词(m‑n)与阈值a进行大小比较，当出现(m‑n)较大时，对数据进行清除处理，当出现a较大时，不对数据进行处理；通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。本发明专利技术使用Parquet格式和Snappy压缩算法在提升大范围数据的读取速度的同时，能够减少住数据存储的用量。

A method of warm data storage

全部详细技术资料下载

【技术实现步骤摘要】
一种温数据存储方法
本专利技术涉及温数据存储领域，尤其涉及一种温数据存储方法。
技术介绍
当前架构的存储方案下，是将全部数据存储在单一的数据库中，然而传统的数据库为了满足一些特定的需求，比如：强一致性，事务性，大数据量下的高性能读写等等，往往对于大范围大批量的分析处理无法得到很好的优化，从而导致数据库会需要进行全表扫描的操作，从而耗费大量的时间。另外根据业务场景，大部分的离线分析计算不会需要使用到全部的数据量，往往时间跨度在半年至一年之间，所以只保存需要范围内的数据，也可以提升分析计算的效率并且控制硬件的使用成本。为此，我们提出一种温数据存储方法来解决上述问题。
技术实现思路
1、专利技术目的。本专利技术提出了一种温数据存储方法，可以定期对数据进行清理，同时便于对数据进行索引和分组，对于硬件的需求较低。2、本专利技术所采用的技术方案。一种温数据存储方法，具体包括以下步骤：S1、每日通过服务器以及相关平台录入数据；S2、根据录入数据时的日期对数据赋值n；S3、将数据以Parquet格式存入HDFS；S4、对当日日期进行赋值，设置成m，通过算法算出(m-n)的值，即为数据关联的关键词，将关键词关联数据；S5、设置阈值a；S6、将数据关联的关键词(m-n)与阈值a进行大小比较，当出现(m-n)较大时，对数据进行清除处理，当出现a较大时，不对数据进行处理；S7、通过Spark从HDFS通过不同的查询条件读取大规...

【技术保护点】
1.一种温数据存储方法，其特征在于，具体包括以下步骤：/nS1、每日通过服务器以及相关平台录入数据；/nS2、根据录入数据时的日期对数据赋值n；/nS3、将数据以Parquet格式存入HDFS；/nS4、对当日日期进行赋值，设置成m，通过算法算出(m-n)的值，即为数据关联的关键词，将关键词关联数据；/nS5、设置阈值a；/nS6、将数据关联的关键词(m-n)与阈值a进行大小比较，当出现(m-n)较大时，对数据进行清除处理，当出现a较大时，不对数据进行处理；/nS7、通过Spark从HDFS通过不同的查询条件读取大规模的数据进行分析计算。/n

【技术特征摘要】
1.一种温数据存储方法，其特征在于，具体包括以下步骤：
S1、每日通过服务器以及相关平台录入数据；
S2、根据录入数据时的日期对数据赋值n；
S3、将数据以Parquet格式存入HDFS；
S4、对当日日期进行赋值，设置成m，通过算法算出(m-n)的值，即为数据关联的关键词，将关键词关联数据；
S5、设置阈值a；
S6、将数据关联的关键词(m-n)与阈值a进行大小比较，当出现(m-n)较大时，对数据进行清除处理，当出现a较大时，不对数据进行处理；
S7、通过Spark从HDFS通过不同的查询条件读取大规模的数据...

【专利技术属性】
技术研发人员：冯报安，杨晶生，
申请(专利权)人：上海麦克风文化传媒有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人