一种云端大数据处理方法和系统技术方案

技术编号:10624387 阅读:85 留言:0更新日期:2014-11-06 17:49
本发明专利技术提供了一种云端大数据处理方法和系统,该方法包括:定义数据层次模型,所述数据层次模型包括SQL层和XML层;在数据寻址时,使用B-树结构存储XML层的索引表和数据表;定义映射函数,将SQL层中的数据项对应到XML层中的数据项。本发明专利技术融合了两种数据模型,增加了数据表达的灵活性和扩展性,性能得到了很大的提高。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种云端大数据处理方法和系统,该方法包括:定义数据层次模型,所述数据层次模型包括SQL层和XML层;在数据寻址时,使用B-树结构存储XML层的索引表和数据表;定义映射函数,将SQL层中的数据项对应到XML层中的数据项。本专利技术融合了两种数据模型,增加了数据表达的灵活性和扩展性,性能得到了很大的提高。【专利说明】一种云端大数据处理方法和系统
本专利技术涉及云存储,特别涉及一种大数据的云计算方法和系统。
技术介绍
随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。网络运营商拥有庞大的用户,同时具有对终端及用户上网通道的掌控能力,使得在用户行为分析方面具有很好的数据基础,深入分析用户流量行为特征和规律,发现用户潜在消费需求,是提升价值和经营水平的有效手段。然而,不仅仅是数据规模越来越大,而且数据类型多和处理实时性要求都极大地增加了大数据处理的复杂度。大数据给传统的数据分析处理技术(例如并行数据库、数据仓库)带来的技术挑战。传统数据分析处理技术无法处理大数据的高扩展性和海量需求。针对亿万的用户,数据呈现出多源化、异构化的趋势,不同的应用对数据的一致性、数据交互、传输延时等均有不同的需求。基于XML的数据模型很好地解决了多机并行处理的瓶颈,存储容量也不再受限,并且能更好地存储各种复杂的数据类型,查询效率也更高。但XML数据模型功能较单一,使用起来没有SQL数据模型灵活,不能增加表以及多表结合来完成复杂的查询功能,应用者必须要更深入的分析大数据之间的结构,对应用支持不好,使用不方便。 因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种云端大数据处理方法和系统,该方法包括: 定义数据层次模型,所述数据层次模型包括SQL层和XML层; 在数据寻址时,使用B-树结构存储XML层的索引表和数据表; 定义映射函数,将SQL层中的数据项对应到XML层中的数据项。 优选地,所述SQL层和XML层均由表结构来表示数据;在该层次模型中,SQL层位于最上层,用于处理应用给出的各种事务性的操作,以及对结构化数据的管理,数据的属性和联系均用二维表表示。 优选地,所述XML层中的表结构米用多维存储,表第一行是表的结构信息,在定义表时首先定义表的列簇,所述列簇包含多列,行和列在进行数据插入时写入,在表中插入数据时,要指定行、表中存在的列簇、以及列,并产生一个时间戳,根据时间戳个数,决定数据的副本个数;XML层的数据表和索引表采用水平分片,将表划分为子表管理,随着数据的插入,当子表增长到预定大小时分裂为两个子表,每个子表由若干记录行组成。 优选地,所述SQL表中的数据项和XML表中的数据项是一一对应的,SQL层和XML层的划分都是针对同一个实体型的数据,属于同一实体型的横向分层,均封装在系统的SQL层中;所述XML层中,只有数据表存储了实际的大字段数据,包括键和值,二层索引表保存了数据表的地址信息以及元数据信息,二层索引表中每行记录对应于一个数据表,根索引表保存了二层索引表的地址信息以及其他元数据信息,根索引表中每条记录对应一个二层索引表。 优选地,所述B-树的根索引节点不被划分,具有唯一性;根据可自定义的节点大小与其文件大小确定数据节点的合并和分裂条件;数据插入和删除,都在数据节点进行,树形结构始终由两层索引节点和一层数据节点组成;包括根索引节点在内的索引节点的子树个数等于索引节点的记录项数目;索引节点的记录项数目等于可自定义的节点大小与每行记录大小的比值。 优选地,所述映射函数根据不同的SQL层数据项而使用不同的映射函数进行转换,当转换成表之间的映射时,SQL表与XML表之间是多对一的映射,即SQL层中I到i_l的表的某个分量都映射到了 XML层中同一个数据子表中不同的数据项,其中I < i < η,η为映射函数的个数; 并且若定义域为X,值域为Y,映射函数f满足以下约束: 6.1,任何不同的数据项或者NULL均表示X或Y中一个唯一元素; 6.2对于任意一个元素χ e X,通过f转换,在Y中有唯一元素与其对应; 6.3对于每个函数fi (I ( i彡η),定义域X为SQL表中某个属性的分量,或者直接为查询条件,值域Y均为XML层中的表的数据。 优选地,所述存储和查询操作中,用户通过统一接口控制SQL层和XML层数据的插入或者删除,数据查询在接口中优化为通过SQL层和XML层的查询,并且对SQL层和XML层的数据访问并发进行,保证SQL层和XML层数据的一致性和完整性,其中XML层数据的读写并发根据时间戳进行控制。 优选地,所述SQL层和XML层数据的一致性和完整性通过以下约束过程来获取: 8.1,当创建表时,如果不同的表有相同的联合主键,则主键顺序一致; 8.2,标记与XML层中行相关的主键列,其余的主键列或者主键列的联合作为步骤 8.2中列簇的列,当SQL层中只有唯一主键时,自动标记为行; 8.3,标记表中的大字段属性; 8.4,统计每一类型表中各个属性列的信息,使一个schema下的各个SQL表映射到同一个XML表中; 8.5,对于步骤8.4中的SQL表和XML表,如果SQL表中,除去已经在步骤8.2中标记的主键列,其余属性均为大字段,则标记该SQL表为大字段,然后在XML表中增加一个名为SQL表名的列簇,否则增加一个名为SQL表中标记的属性的列簇; 8.6,对映射函数的约束,当原象为NULL时,象必为NULL ; 并且,在进行数据操作时,其键值根据查询条件动态产生,一次事务操作只有一个键。 根据本专利技术的另一方面,提供了一种云端大数据处理系统,用于结合结构化SQL和非结构化XML对大数据进行存储和查询,其特征在于,包括: 模型定义模块,用于定义数据层次模型,所述数据层次模型包括SQL层和XML层; 存储模块,用于在在数据寻址时,使用B-树结构存储XML层的索引表和数据表; 映射模块,用于定义映射函数,将SQL层中的数据项对应到XML层中的数据项。 本专利技术相比现有技术,具有以下优点: 改进了大数据处理方法和系统,按实体的属性类型进行横向划分,融合了两种数据模型,使数据应用在灵活性和扩展性之间有了较好的平衡。在处理大字段数据时,性能得到了很大的提高,在云计算大数据管理领域发挥更大的功能。 【专利附图】【附图说明】 图1是根据本专利技术实施例的云端大数据处理方法的流程图。 【具体实施方式】 下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。 本专利技术的一方面提供了一种云端大数据处理方法和系统。根据数据实体的属性类型,对数据实体进行进一步切分,每个子实体属于SQL型本文档来自技高网
...

【技术保护点】
一种云端大数据处理方法,用于结合结构化SQL和非结构化XML对大数据进行存储和查询,其特征在于,包括:定义数据层次模型,所述数据层次模型包括SQL层和XML层;在数据寻址时,使用B‑树结构存储XML层的索引表和数据表;定义映射函数,将SQL层中的数据项对应到XML层中的数据项。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒲思羽
申请(专利权)人:四川中亚联邦科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1