中间表更新方法及装置制造方法及图纸

技术编号:11442537 阅读:64 留言:0更新日期:2015-05-13 13:00
本发明专利技术实施例公开了一种中间表更新方法及装置。其中,所述方法包括:获取业务数据处理任务对基础表和/或中间表中数据的提取记录;根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;根据所述表项调整方案更新所述中间表的表项。本发明专利技术实施例提供的技术方案,以智能的方式,来获取业务数据处理任务对基础表和/或中间表中数据的提取情况,并据此动态调整中间表中的表项,使得中间表的表项和规模可以达到较佳的平衡点,从而提高了中间表调整的及时性和准确性。

【技术实现步骤摘要】
中间表更新方法及装置
本专利技术实施例涉及数据处理
,尤其涉及中间表更新方法及装置。
技术介绍
随着计算机技术与移动互联网技术的蓬勃发展,各种数据呈爆炸式增长。一些设备每天需要处理的数据量可以达到T(10的12次方)级别,甚至P级别(10的15次方)。在现有的数据处理模式中,原始数据作为基础数据,通常均会被存储在基础表中。但是,在后续基于基础数据执行相关业务处理的过程中,往往需要先对基础数据进行聚合等处理操作,以提取出基础数据中所隐含的为后续业务处理所需的数据,进而再处理产生业务数据。一般情况下,提取基础数据或中间数据,再产生一项业务数据的过程由一个业务数据处理任务实现。随着业务数据需求的增多,业务数据处理任务也越来越多,如果所有的业务数据处理任务都以基础表作为数据源,从其中所存储的基础数据开始计算,那么在计算过程中,将会消耗很大的带宽和资源。为此,现有技术预先对基础表中的基础数据进行了某种程度上的聚合,产生了一些中间表(DATAMART),直接供下游的业务数据处理任务进行处理以得到业务数据,从而减少对原始数据的读取和计算操作,节省带宽和资源。其中,中间表中的数据包括从基础表中提取的部分数据,或者对所提取的部分数据进行处理生成的中间数据。然而,如果中间表中涵盖的数据量少,则会无法有效满足业务数据处理任务的提取需求;如果中间表涵盖的数据量大,又会使得中间表的规模过大,既占用存储空间,也无法有效提高数据的处理效率。为得到合适的中间表,现有技术主要依靠人工经验来设计中间表,但由于数据量巨大,所以中间表的调整周期过长,不及时、准确率不高。
技术实现思路
本专利技术实施例提供一种中间表更新方法及装置,以提高中间表调整的及时性和准确性。一方面,本专利技术实施例提供了一种中间表更新方法,该方法包括:获取业务数据处理任务对基础表和/或中间表中数据的提取记录;根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;根据所述表项调整方案更新所述中间表的表项。另一方面,本专利技术实施例还提供了一种中间表更新装置,该装置包括:提取记录获取单元,用于获取业务数据处理任务对基础表和/或中间表中数据的提取记录;表项调整方案确定单元,用于根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;中间表项更新单元,用于根据所述表项调整方案更新所述中间表的表项。本专利技术实施例提供的技术方案,以智能的方式,来获取业务数据处理任务对基础表和/或中间表中数据的提取情况,并据此动态调整中间表中的表项,使得中间表的表项和规模可以达到较佳的平衡点,从而提高了中间表调整的及时性和准确性。附图说明图1是本专利技术实施例一提供的一种中间表更新方法的流程示意图;图2是本专利技术实施例三提供的一种中间表更新方法的流程示意图;图3是本专利技术实施例三提供的中间表更新方法所适用的网络架构示意图;图4是本专利技术实施例四提供的一种中间表更新装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种中间表更新方法的流程示意图。本实施例可应用于由用于存储基础表和中间表的物理设备,以及执行业务数据处理任务的物理设备所构成的数据处理系统。其中,对于基础表和中间表而言,其可以以数据库的形式,被存储在同一台物理设备中,也可被存储在不同物理设备中;业务数据处理任务可以是由并列的不同类型的业务数据处理子任务组成,且每种业务数据处理子任务的个数为至少一个,不同的业务数据处理子任务可由不同的物理设备(例如,服务器)所负责执行。每个业务数据处理子任务,用于从基础表和中间表中提取数据并进行处理得到相应的业务数据。本实施例提供的中间表更新方法,可由中间表更新装置执行,所述装置由软件实现。其中,中间表更新装置可作为独立的软件产品,而被设置在位于上述数据处理系统之外的第三方物理设备上,通过与数据处理系统之间的数据交互,实现对数据处理系统中中间表的更新。或者,中间表更新装置作为上述数据处理系统内的一部分软件模块,而被内置在数据处理系统内的一台物理设备中,以实现对数据处理系统中中间表的更新。参见图1,本实施例提供的中间表更新方法具体包括如下:S110、获取业务数据处理任务对基础表和/或中间表中数据的提取记录。在本实施例中,基础表和中间表均可包含有多条数据记录,每条数据记录可被视为一个键值对,其中键值对中键(key)为表项名称,值(value)为表项上的数值。中间表中的数据包括从基础表中提取的部分数据,或者对所提取的部分数据进行处理生成的中间数据。例如,下表1给出了一种基础表:表1PC手机平板电脑北京上海深圳第一网页数值1数值4数值7数值10数值13数值16第二网页数值2数值5数值8数值11数值14数值17第三网页数值3数值6数值9数值12数值15数值18…………………第K网页数值K1数值K2数值K3数值K4数值K5数值K6参见上述表1,该表中包含有K(为大于3的自然数)条数据记录,每条数据记录包括:网页分别在PC机、手机、平板电脑、北京、上海、深圳(对应于键值对中的键)这6个表项上的点击量(对应于键值对中的值)。显然,这6个表项是根据网页在不同终端类型和不同地域上的点击量两个维度所设置的。例如,对于表1中的第2条数据记录,该条数据记录描述了第二网页分别在PC机、手机、平板电脑、北京、上海、深圳这6个表项上的点击量依次为:数值2、数值5、数值8、数值11、数值14和数值17。下表2给出了一种中间表:表2手机平板电脑北京第一网页数值4数值7数值10第二网页数值5数值8数值11第三网页数值6数值9数值12…………第K网页数值K2数值K3数值K4当然,本领域的普通技术人员应理解,为方便描述本实施例所提供的技术方案,上述表1和表2仅是作为一种示例加以阐述。在实际执行当中,基础表和中间表中的数据记录的条数,以及表项的数目,往往会远大于上述表1和表2所示的情况。在本实施例中,业务数据处理任务负责从基础表和/或中间表中提取数据并进行处理得到业务数据。业务数据处理任务至少包括如下两种类型的任务:用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第一种业务数据处理任务(例如,Adhoc业务数据处理任务);用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第二种业务数据处理任务(例如,例行业务数据处理任务)。如果业务数据处理任务可以预先获知基础表和中间表的表项,则业务数据处理任务可先根据提取需求和所获取的基础表和中间表的表项,确定应该从基础表中获取哪些基础数据,从中间表中获取哪些中间数据,然后根据确定结果,向基础表和/或中间表发出对应的查询指令进行数据提取。如果业务数据处理任务未能预先获知基础表和中间表的表项,则业务数据处理任务可根据提取需求,先在中间表中查询并获取中间数据;如果中间表未覆盖能够满足提取需求的中间数据,则在基础表中查询并获取基础数据。因此,在本实施例中,提取记录可包括下述至少一项记录:业务数据处理任务根据提取需求,在基础表中查询并获取基础数据的记录;本文档来自技高网...
中间表更新方法及装置

【技术保护点】
一种中间表更新方法,其特征在于,包括:获取业务数据处理任务对基础表和/或中间表中数据的提取记录;根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;根据所述表项调整方案更新所述中间表的表项。

【技术特征摘要】
1.一种中间表更新方法,其特征在于,包括:获取业务数据处理任务对基础表和/或中间表中数据的提取记录;根据所述提取记录,按照设定规则确定所述中间表的表项调整方案;根据所述表项调整方案,预算调整后新中间表的容量大小;如果所述容量大小超出表容量预设值,则修改所述表项调整方案,直至预算的新中间表容量大小低于表容量预设值;其中,修改所述表项调整方案包括如下至少一种:根据业务数据处理任务对基础表中待添加表项的提取频次,来确定需在表项调整方案中删除的待添加表项;根据业务数据处理任务对中间表中除待添加表项之外的非待添加表项的提取频次,来确定新的待删除表项;根据待添加表项在基础表中的数据量,来具体确定所要减少的待添加表项;根据非待添加表项在中间表中的数据量,来确定新的待删除表项;根据所述表项调整方案更新所述中间表的表项。2.根据权利要求1所述的方法,其特征在于,根据所述提取记录,按照设定规则确定所述中间表的表项调整方案,包括:根据所述提取记录,统计所述基础表中表项的提取频次;将提取频次达到第一预设值的表项,作为所述中间表的待添加表项。3.根据权利要求1所述的方法,其特征在于,根据所述提取记录,按照设定规则确定所述中间表的表项调整方案,包括:根据所述提取记录,统计所述中间表中表项的提取频次;将所述提取频次低于第二预设值的表项,作为所述中间表的待删除表项。4.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:监测所述业务数据处理任务从所述基础表和所述中间表中提取数据并进行处理得到业务数据所耗费的时间;根据所监测到的时间,产生中间表调整建议或所述设定规则的调整建议。5.根据权利要求1-3中任一项所述的方法,其特征在于,所述提取记录包括下述至少一项记录:业务数据处理任务根据提取需求,在所述基础表中查询并获取基础数据的记录;业务数据处理任务根据提取需求,在所述中间表中查询并获取中间数据的记录;业务数据处理任务根据提取需求查询所述中间表,如果所述中间表不存在满足所述提取需求的中间数据,则根据所述提取需求在所述基础表中查询并获取基础数据的记录;所述业务数据处理任务至少包括如下两种类型的任务:用于根据单次的业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第一种业务数据处理子任务;用于按照设定周期和/或设定业务数据处理需求,从基础表和/或中间表进行数据提取和处理的第二种业务数据处理子任务。6.一种中间表更新装置,其特征在于,包括:提取记录获取单元,用...

【专利技术属性】
技术研发人员:董铭孙勇义刘生
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1