基于标签计算的数据存储方法技术

技术编号：39519070 阅读：11 留言：0更新日期：2023-11-25 18:57

本发明专利技术公开了一种基于标签计算的数据存储方法

全部详细技术资料下载

【技术实现步骤摘要】
基于标签计算的数据存储方法、系统、设备及介质

[0001]本专利技术涉及数据存储
，特别涉及一种基于标签计算的数据存储方法
、
基于标签计算的数据存储系统
、
电子设备及存储介质
。

技术介绍

[0002]从
Hadoop(
一种分布式系统基础架构
)
诞生到现在，数据的存储格式经历了几代的发展，从最初的
txt file(
一种存储格式
)
，到后来的
sequence file(
另一种存储格式
)
和
rcfile(
另一种存储格式
)
，再到现在的
ORC(
一种列式存储格式
)
和
Parquet(
另一种列式存储格式
)
等列式存储文件，数据的存储格式发生了翻天覆地的变化，更好的性能
、
更高的压缩比
。
然而数据组织方式的发展却相当缓慢
。
[0003]Hive(
一个数据仓库工具
)
提出了分区的概念，利用某几个
column(
数据表中的列
)
作为分区值来组织数据，能够有效地过滤掉无需读取的数据，这种分区在物理存储上反映出来的就是按照文件夹进行分区
(
组织
)
数据
。
利用文件夹来组织与
HDFS(Ha...

【技术保护点】

【技术特征摘要】
1.
一种基于标签计算的数据存储方法，其特征在于，所述方法包括：从前端页面上获取标签脚本，并将所述标签脚本翻译成分布式计算逻辑进行数据解析，以得到若干个基础标签
、
与所述基础标签对应的至少一个衍生标签以及与所述基础标签对应的第一标签规则，与所述衍生标签对应的第二标签规则；从预设数据库中获取原始数据；使用分布式计算引擎对所述基础标签
、
所述衍生标签
、
所述第一标签规则
、
所述第二标签规则以及所述原始数据进行倒序排列计算，以得到标签计算结果；采用至少一种存储格式对所述标签计算结果进行存储
。2.
如权利要求1所述的基于标签计算的数据存储方法，其特征在于，所述采用至少一种存储格式对所述标签计算结果进行存储，包括：获取所述标签的数量，并判断所述数量是否大于预设数量阈值；若否，则采用第一存储格式对所述标签计算结果进行存储；若是，则采用第二存储格式对所述标签计算结果进行存储
。3.
如权利要求1或2所述的基于标签计算的数据存储方法，其特征在于，所述方法还包括：通过窄表转宽表的方式将存储好的所述标签计算结果存入查询分析系统中，以对所述标签或所述衍生标签进行标签查询和
/
或标签分析
。4.
如权利要求1所述的基于标签计算的数据存储方法，其特征在于，在从所述从前端页面上获取标签脚本之前，所述方法还包括：在所述前端页面通过预设语法和在线筛选逻辑运算的组合筛选，配置所述标签脚本
。5.
一种基于标签计算的数据存储系统，其特征在于，所述系统包括：标签解析模块，从前端页面上获取标签脚本，并将所述标签脚本翻译成分布式计算逻辑进行数据解析，以得到若干个基础标签
、
...

【专利技术属性】
技术研发人员：刘志阳，曹凯周，李阳，刘家俊，
申请(专利权)人：上海吉贝克信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人