一种处理数据仓库中数据的方法及装置制造方法及图纸

技术编号:15048633 阅读:96 留言:0更新日期:2017-04-05 19:49
本申请公开了一种处理数据仓库中数据的方法,用以解决现有技术中为了使得具备指定属性的数据不影响数据仓库性能,会导致数据访问过程较为繁琐,且数据访问过程会耗费较多的处理资源的问题。方法包括:获取数据仓库中至少一个表示数据指定属性的元数据;从获取的所述至少一个表示数据指定属性的元数据中,识别出符合数据判定规则的元数据;对识别出的元数据对应的数据进行压缩处理。本申请还公开一种处理数据仓库中数据的装置。

【技术实现步骤摘要】

本申请涉及计算机
,尤其涉及一种处理数据仓库中数据的方法及装置。
技术介绍
数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库中的数据,一般具有固定的生命周期,都会经历从热到冷的过程。其中,所谓的“冷”和“热”是根据数据近期(比如最近一周、10天或一个月等)的被访问频率定义的。一般地,可以将近期被用户频繁访问的数据,称为热数据;而将用户近期极少访问的数据称为冷数据。针对单个数据仓库而言,其保存的数据中一般既有冷数据也有热数据。在大数据环境下,冷数据和热数据的数据量,往往都非常的庞大,甚至达到拍字节(Petabyte,PB)以上,其中1PB=1024TB=1048576GB。用户对于数据仓库的访问,往往是对热数据的访问,但数据仓库中数量巨大冷数据的存在,势必会占用数据仓库较大的存储空间,从而降低数据仓库的性能,(比如数据库对于数据访问请求的响应速度变慢,等)。为了解决上述问题,目前有技术提出,将冷数据与热数据分别保存在两个不同的数据仓库中。例如,有技术提出设置历史数据仓库以及当前数据仓库两个数据仓库,其中,历史数据仓库用于存储冷数据,而当前数据仓库用于存储热数据。用户在对数据仓库进行访问时,其访问请求优先被发送至当前数据仓库,若在当前数据仓库中未能查询到期望访问的数据,则该访问请求再被转发给历史数据仓库。上述现有技术,虽然可以避免冷数据占用当前数据仓库较多的存储空间,进而避免冷数据对于热数据所在的当前数据仓库的性能产生影响。然而,由于数据被分离保存在两个数据仓库中,当用户期望访问的数据分散在这两个数据仓库中时,需要分别向两个数据仓库发送访问请求,从而导致数据访问过程较为繁琐,且会耗费较多的处理资源。需要说明的是,上述现有技术,也被用在对具备不同属性的数据的存储上。比如,将具备指定属性的数据存储在第一数据仓库,将具备其他属性的数据存储在第二数据仓库。其中,这里所说的指定属性,除了可以是访问频率外,比如还可以是数据格式、数据重要程度或数据等级,等等。
技术实现思路
本申请实施例提供一种处理数据仓库中数据的方法,用以解决现有技术中为了使得具备指定属性的数据不影响数据仓库性能,会导致数据访问过程较为繁琐,且数据访问过程会耗费较多的处理资源的问题。本申请实施例还提供一种处理数据仓库中数据的装置,用以解决现有技术中为了使得具备指定属性的数据不影响数据仓库性能,会导致数据访问过程较为繁琐,且数据访问过程会耗费较多的处理资源的问题。本申请实施例采用下述技术方案:一种处理数据仓库中数据的方法,包括:获取数据仓库中至少一个表示数据指定属性的元数据;从获取的所述至少一个表示数据指定属性的元数据中,识别出符合数据判定规则的元数据;对识别出的元数据对应的数据进行压缩处理。一种处理数据仓库中数据的装置,包括:元数据获取单元,用于获取数据仓库中至少一个表示数据指定属性的元数据;元数据识别单元,用于从获取的所述至少一个表示数据指定属性的元数据中,识别出符合数据判定规则的元数据;压缩单元,用于对识别出的元数据对应的数据进行压缩处理。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:由于可以通过对符合数据判定规则的元数据所对应的数据进行压缩,达到减少所述对应的数据所占用的存储空间的目的,因此,所述对应的数据无需保存到其他数据仓库中,避免了现有技术中为了使得具备指定属性的数据不影响数据仓库性能,会导致数据访问过程较为繁琐,且数据访问过程会耗费较多的处理资源的问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种处理数据仓库中数据的方法的具体实现流程示意图;图2为本申请实施例提供的一种数据分区表的示意图;图3为本申请实施例提供的一种处理数据仓库中冷数据系统的具体结构示意图;图4为本申请实施例提供的一种处理数据仓库中冷数据的方法的具体实现流程示意图;图5为本申请实施例提供的一种处理数据仓库中数据的装置的具体结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地表示。显然,所表示的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。实施例1本实施例提供一种处理数据仓库中数据的方法,用以解决通过现有方法导致数据访问过程较为繁琐,且会耗费较多的处理资源的问题。该方法的具体实现流程示意图如图1所示,主要包括下述步骤:步骤11,获取数据仓库中至少一个表示数据指定属性的元数据;需要说明的是,元数据,是用于表示数据属性的数据。针对数据仓库中的元数据而言,其按照用途可以分为:技术元数据和业务元数据。其中,所述的业务元数据是用来表示数据所对应的业务的元数据。例如,支付宝服务器上的一组用于记录用户支出项目的数据,则该组数据的业务元数据可以用来表示该组数据的具体支出项目类别(如,生活用品类支出、娱乐类支出、电子用品类支出、食品类支出以及服装类支出,等等)。所述技术元数据是用来表示与开发和管理数据仓库相关的数据的元数据。具体地,技术元数据可以是用于表示数据所在数据分区表属性的元数据,比如,可以是用于表示数据所在数据分区表的名称、数据所在数据分区表的创建时间、数据所在数据分区表的访问时间以及数据所在数据分区表的访问量等数据分区表属性中的至少一个属性的元数据。需要说明的是,在一种实施方式中,本申请实施例所述的表示数据指定属性的元数据,可以为业务元数据,也可以为技术元数据,还可以是其他元数据。其中,数据的指定属性,比如可以是技术元数据所表示的属性,例如,可以是技术元数据所表示的数据所在数据分区表的名称、数据所在数据分区表的创建时间、数据所在数据分区表的访问时间以及数据所在数据分区表的访问量等属性中的至少一个属性;比如还可以是业务元数据所表示的属性,例如,可以是业务元数据所表示的业务的名称以及业务的类型等属性中的至少一个属性;此外,还可以是用于表示数据的名称、数据的重要等级、数据的类型、数据的创建时间、数据的访问时间、数据的访问量等属性中的至少一个属性的元数据。本申请实施例中,数据仓库中保存的元数据,可以是从数据存储请求中获取到的,也可以是通过对数据仓库日志中的相关记录进行分析得到的,等等。例如,通过对数据仓库日志中的创建记录的分析,可以生成表示数据分区表的创建时间的元数据;通过对日志中的访问记录的分析,可以生成表示数据分区表的访问时间的元数据;通过对日志中的访问量的分析,可以生成表示数据分区表的访问量的元数据;等。本申请实施例中,可以将通过上述途径获得的元数据保存在数据仓库的指定存储空间(比如数据分区表的分区名称栏等)中,以便于后续从该指定存储空间中获取元数据。此外需要说明的是,上述数据分区表,是指数据仓库中的存储子空间。本申请实施例中,可以按照数据本文档来自技高网
...
一种处理数据仓库中数据的方法及装置

【技术保护点】
一种处理数据仓库中数据的方法,其特征在于,包括:获取数据仓库中至少一个表示数据指定属性的元数据;从获取的所述至少一个表示数据指定属性的元数据中,识别出符合数据判定规则的元数据;对识别出的元数据对应的数据进行压缩处理。

【技术特征摘要】
1.一种处理数据仓库中数据的方法,其特征在于,包括:获取数据仓库中至少一个表示数据指定属性的元数据;从获取的所述至少一个表示数据指定属性的元数据中,识别出符合数据判定规则的元数据;对识别出的元数据对应的数据进行压缩处理。2.如权利要求1所述的方法,其特征在于,所述数据指定属性包括:数据类型;所述数据判定规则为与数据类型匹配的数据判定规则;则从获取的所述至少一个表示数据指定属性的元数据中,识别出符合数据判定规则的元数据,包括:根据所述至少一个表示数据指定属性的元数据分别表示的数据类型,确定与所述分别表示的数据类型分别匹配的各数据判定规则;从获取的所述至少一个表示数据指定属性的元数据中,识别出符合相应的数据判定规则的元数据。3.如权利要求1所述的方法,其特征在于,所述数据指定属性包括:数据被访问时刻;从获取的所述至少一个表示数据指定属性的元数据中,识别出符合数据判定规则的元数据,包括:根据所述至少一个表示数据指定属性的元数据分别表示的数据被访问时刻,确定所述至少一个表示数据指定属性的元数据对应的数据在指定时间段内的被访问频率;根据所述被访问频率,从所述至少一个表示数据指定属性的元数据中,识别出对应的数据的所述被访问频率低于设定频率阈值的元数据。4.如权利要求1所述的方法,其特征在于,所述数据判定规则中,包含针对至少两个数据指定属性分别设置的判定条件。5.如权利要求1所述的方法,其特征在于,对识别出的表示数据指定属
\t性的元数据对应的数据进行压缩处理,包括:对识别出的元数据对应的数据进行压缩处理,使得压缩后的所述对应的数据具备第一压缩率;其中,所述第一压缩率高于所述数据仓库中其他数据具备的第二压缩率。6.如权利要求1~5任一权项所述的方法,其特征在于:所述表示数据指定属性的元数据为处于同一数据...

【专利技术属性】
技术研发人员:吴天虹陈立
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1