一种基于文件模式的大数据层存储方法技术

技术编号:31580012 阅读:29 留言:0更新日期:2021-12-25 11:23
本发明专利技术公开了一种基于文件模式的大数据层存储方法,包括:获取待处理数据,对所述待处理数据进行解析,根据解析结果将所述待处理数据分为若干个子待处理数据;根据若干个子待处理数据建立若干个数据模型;其中,一个子待处理数据建立一个数据模型;根据所述数据模型生成模型文件,将所述模型文件中的数据生成数据层,得到若干个数据层;建立各数据层之间的关联关系,生成数据层集合并进行存储。可以提升数据统计分析、各个维度钻取分析及多个维度计算的性能,实现基于文件模式的大数据层存储,提高存储的安全性及高效性,同时支持多用户写入及任意修改文件。入及任意修改文件。入及任意修改文件。

【技术实现步骤摘要】
一种基于文件模式的大数据层存储方法


[0001]本专利技术涉及大数据存储
,特别涉及一种基于文件模式的大数据层存储方法。

技术介绍

[0002]大数据存储,指用存储器,以数据库的形式,存储采集到的数据的过程,常见技术包含三种典型路线:1、基于MPP架构的新型数据库集群:采用Shared Nothing架构,结合MPP架构的高效分布式计算模式,通过列存储、粗粒度索引等多项大数据处理技术,重点面向行业大数据所展开的数据存储方式。具有低成本、高性能、高扩展性等特点,在企业分析类应用领域有着广泛的应用。较之传统数据库,其基于MPP产品的PB级数据分析能力,有着显著的优越性。自然,MPP数据库,也成为了企业新一代数据仓库的最佳选择。2、基于Hadoop的技术扩展和封装:基于Hadoop的技术扩展和封装,是针对传统关系型数据库难以处理的数据和场景(针对非结构化数据的存储和计算等),利用Hadoop开源优势及相关特性(善于处理非结构、半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等),衍生出相关大数据技术的过程。伴随着技术进步,其应用场景也将逐步扩大,目前最为典型的应用场景:通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑,其中涉及了几十种NoSQL技术。3、大数据一体机:这是一种专为大数据的分析处理而设计的软、硬件结合的产品。它由一组集成的服务器、存储设备、操作系统、数据库管理系统,以及为数据查询、处理、分析而预安装和优化的软件组成,具有良好的稳定性和纵向扩展性。
[0003]现有技术1中,分布式文件系统是一种通过计算机网络实现在多台机器上进行分布式存储的文件系统,它把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群,设计一般所采用的是“客户机/服务器”模式。分布式文件系统的设计需要重点考虑可扩展性、可靠性、性能优化、易用性及高效元数据管理等关键技术。当前大数据领域中,分布式文件系统的使用主要以Hadoop HDFS为主。HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度,除此之外,HDFS还具有兼容的廉价设备、流数据读写、大数据集、简单的数据模型、强大的跨平台兼容性等特点。但是HDFS也存在着自身的不足,比如不适合低延迟数据访问、无法高效存储大量小文件和不支持多用户写入及任意修改文件等。
[0004]现有技术2中,分布式数据库HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储半结构化和非结构化数据。HBase可以支持Native JavaAPI、HBase Shell等多种访问接口,可以根据具体应用场合选择相应的访问方式,而且相对于传统的关系数据库来说,HBase采用了更加简单的数据模型,把数据存储为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化为字符串保存到HBase中,除此之外在数据操作、存储模式、数据索引、数据维护和可伸缩性等方便都有了更易于实现的方式。HBase因为其强大的写入能力和水平扩展能力,比较适合存储日志,用户行为等数据量比较大的数据,这种数据一般不涉及事务级别的读写,对二级索
引的需求也不是很高。而且HBase的主键不像Mysql,往往是涉及到业务逻辑的,如果查询条件单一的话,可以把直接把需要查询的字段作为主键的一部分,类似MySQL的联合索引,来提供检索功能。但是HBase存在不支持事务等缺点。
[0005]如图2所示,传统的数据库存储方式,其底层数据存放格式都是行记录方式存放,目前绝大多数的基于关系型数据库的传统BI技术,都是这样的,行记录存放数据的局限性在于数据量必然庞大,特别是随着维度和指标的增多,数量库容量将越来越大,计算效率越来越低,分析报表结果展现也越来越慢。传统数据模型都是事先固定好了维度和指标,不能随业务变化进行调整,致分析的广度和深度都受到极大限制;传统的数据模型钻取路径和层次都是预先设置好了,不能突破,一旦超出必须重新做CUBE和建模型,大大增加了成本。

技术实现思路

[0006]本专利技术旨在至少一定程度上解决上述技术中的技术问题之一。为此,本专利技术的目的在于提出一种基于文件模式的大数据层存储方法,可以提升数据统计分析、各个维度钻取分析及多个维度计算的性能,实现基于文件模式的大数据层存储,提高存储的安全性及高效性,同时支持多用户写入及任意修改文件。
[0007]为达到上述目的,本专利技术实施例提出了一种基于文件模式的大数据层存储方法,包括:
[0008]获取待处理数据,对所述待处理数据进行解析,根据解析结果将所述待处理数据分为若干个子待处理数据;
[0009]根据若干个子待处理数据建立若干个数据模型;其中,一个子待处理数据建立一个数据模型;
[0010]根据所述数据模型生成模型文件,将所述模型文件中的数据生成数据层,得到若干个数据层;
[0011]建立各数据层之间的关联关系,生成数据层集合并进行存储。
[0012]根据本专利技术的一些实施例,根据子待处理数据建立数据模型,包括:
[0013]将所述子待处理数据分为用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段;
[0014]根据所述维度字段、信息字段及摘要字段建立数据模型。
[0015]根据本专利技术的一些实施例,所述根据所述维度字段、信息字段及摘要字段建立数据模型,包括:
[0016]基于计算函数对所述摘要字段进行建模前的计算修改;
[0017]基于所述信息字段建立描述脚本,运行描述脚本中设计好的操作程序来进行建模;
[0018]在建模过程中,对所述维度字段包括的分析维度使用交叉索引技术进行辅助以加快数据量的访问速度,最终建立数据模型。
[0019]根据本专利技术的一些实施例,所述模型文件包括具体数据及数据统计分析信息。
[0020]根据本专利技术的一些实施例,所述将所述模型文件中的数据生成数据层,包括:
[0021]获取所述模型文件中的维度;
[0022]建立模型文件中各个维度之间的关联关系,根据所述各个维度之间的关联关系生
成数据层。
[0023]根据本专利技术的一些实施例,对所述待处理数据进行解析,根据解析结果将所述待处理数据分为若干个子待处理数据,包括:
[0024]获取待处理数据中包括的数据的属性,将所述属性作为解析结果;所述属性包括数据类型、数据名称;
[0025]根据所述属性将所述待处理数据进行数据分割,得到若干个子待处理数据。
[0026]根据本专利技术的一些实施例,根据所述各个维度之间的关联关系生成数据层时,包括:对生成数据层的各个维度进行同行排列,并为各个维度对应的数据生成第一标识。
[0027]根据本专利技术的一些实施例,建立各数据层之间的关联关系,生成数据层集合并进行存储时,包括:将各个数据层进行不同行排列,并为各数据层之间的关联关系生成第二标识。
[0028]根据本专利技术的一些实施例,在对数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文件模式的大数据层存储方法,其特征在于,包括:获取待处理数据,对所述待处理数据进行解析,根据解析结果将所述待处理数据分为若干个子待处理数据;根据若干个子待处理数据建立若干个数据模型;其中,一个子待处理数据建立一个数据模型;根据所述数据模型生成模型文件,将所述模型文件中的数据生成数据层,得到若干个数据层;建立各数据层之间的关联关系,生成数据层集合并进行存储。2.如权利要求1所述的基于文件模式的大数据层存储方法,其特征在于,根据子待处理数据建立数据模型,包括:将所述子待处理数据分为用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段;根据所述维度字段、信息字段及摘要字段建立数据模型。3.如权利要求2所述的基于文件模式的大数据层存储方法,其特征在于,所述根据所述维度字段、信息字段及摘要字段建立数据模型,包括:基于计算函数对所述摘要字段进行建模前的计算修改;基于所述信息字段建立描述脚本,运行描述脚本中设计好的操作程序来进行建模;在建模过程中,对所述维度字段包括的分析维度使用交叉索引技术进行辅助以加快数据量的访问速度,最终建立数据模型。4.如权利要求1所述的基于文件模式的大数据层存储方法,其特征在于,所述模型文件包括具体数据及数据统计分析信息。5.如权利要求1所述的基于文件模式的大数据层存储方法,其特征在于,所述将所述模型文件中的数据生成数据层,包括:获取所述模型文件中的维度;建立模型文件中各个维度之间的关联关系,根据所述各个维度之间的关联关系生成数据层。6.如权利要求1所述的基于文件模式的大数据层存储方法,其特征在于,对所述待处理数据进行解析,根据解析结果将所述待处理数据分为若干个子待处理数据,包括:获取待处理数据中包括的数据的属性,将所述属性作为解析结果;所述属性包括数据类型、数据名称;根据所述属性将所述待处理数据进行数据分割,得到若干个子待处理数据。7.如权利要求5所述的基于文件模式的大数据层存储方法,其特征在于,根据所述各个维度之间的关联关系生成数据层时,包括:对生成数据层的各个维度进行同行排列,并为各个维度对应的数据生成第一标识。8.如权利要求1所述的基于文件模式的大数据层存储方法,其特征在于,建立各数据层之间的关联关系,生成数据层集合并进行存储时,包括:将各个数据层进行不同行排列,并为各数据层之间的关联关系生成第二标识。9.如权利要求1所述的基于文件模式的大数据层存储方法,其特征在于,在对数据层集合进行存储时,包括:
获取所述数据层集合的第一个数据层的数据顺...

【专利技术属性】
技术研发人员:张才明
申请(专利权)人:中国劳动关系学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1