【技术实现步骤摘要】
数据钻取方法和装置
本申请涉及计算机
,尤其涉及一种数据钻取方法和装置。
技术介绍
在数据分析场景中,数据库内可以存储有业务数据,比如交易明细数据等。当业务指标发生波动时,比如交易量发生下跌时,通过在数据库内钻取数据可以确定数据波动的主要原因。目前在数据库内钻取数据时,通常遍历所有维度的数据,对各个维度的数据均进行下钻。然而,遍历所有维度的数据具有数据钻取速度慢、效率低的问题。
技术实现思路
本申请实施例的目的是提供一种数据钻取方法和装置,以提高数据钻取效率。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供了一种数据钻取方法,包括:获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。本申请实施例提供了一种数据钻取装置,包括:数据获取模块,用于获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;层级确定模块,用于通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;数据钻取模块,用于基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。本申请实施例提供了一种数据钻取设备,包括:处理器;以及被安排成存储计算机可执行指令的 ...
【技术保护点】
1.一种数据钻取方法,包括:获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。
【技术特征摘要】
1.一种数据钻取方法,包括:获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。2.根据权利要求1所述的方法,通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,包括:在所述多条目标数据中分次提取不同条数的目标数据,在每次提取出来的所述目标数据中,确定每个所述数据维度对应的维度值取值数量;根据每次提取出的所述目标数据中每个所述数据维度对应的维度值取值数量,以及,每次提取出来的所述目标数据的条数,确定随所述目标数据的条数的增长,对应的维度值取值数量呈现收敛状态的数据维度;将所述对应的维度值取值数量的数据维度确定为可枚举维度。3.根据权利要求1所述的方法,通过数据挖掘的方式,确定各个所述可枚举维度之间的层级关系,包括:通过预设的关联规则挖掘算法,在所述可枚举维度对应的各个维度值中挖掘得到多个目标维度值对;其中,所述目标维度值对包括第一维度值和第二维度值,记录有所述第一维度值的目标数据中记录有所述第二维度值的概率满足第一概率要求,记录有所述第二维度值的目标数据中记录有第一维度值的概率满足第二概率要求;确定所述第一维度值所在的可枚举维度为第一可枚举维度,确定所述第二维度值所在的可枚举维度为第二可枚举维度;若所述第一可枚举维度的超过预定数量比例的维度值分别与所述第二可枚举维度的多个维度值组成所述目标维度值对,则确定所述第一可枚举维度为所述第二可枚举维度的上级维度。4.根据权利要求1至3任一项所述的方法,基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取,包括:按照各个所述可枚举维度之间的层级关系,确定前次下钻的可枚举维度的各个下一层可枚举维度,在所述各个下一层可枚举维度中选取本次下钻的可枚举维度;其中,第一次下钻时在第一层的可枚举维度中选取第一次下钻的可枚举维度;根据前次下钻的维度值,在所述本次下钻的可枚举维度对应的各个维度值中选取本次下钻的维度值;其中,第一次下钻时在第一次下钻的可枚举维度对应的各个维度值中选取第一次下钻的维度值;若按照各个所述可枚举维度之间的层级关系,确定本次下钻的可枚举维度具有对应的下层可枚举维度,则继续确定下次下钻的可枚举维度和下次下钻的维度值,反之,将包含本次下钻的维度值的目标数据作为数据钻取结果。5.根据权利要求4所述的方法,在所述各个下一层可枚举维度中选取本次下钻的可枚举维度,包括:计算所述各个下一层可枚举维度针对数据波动的交叉熵;在所述各个下一层可枚举维度中选取所述交叉熵最大的维度作为本次下钻的可枚举维度。6.根据权利要求4所述的方法,在所述各个下一层可枚举维度中选取本次下钻的可枚举维度,包括:分别确定每个所述下一层可枚举维度对应的各个维度值,在确定的各个维度值中筛选与前次下钻的维度值相关的维度值;计算筛选得到的各个所述相关的维度值针对数据波动的贡献度,将贡献度最大的所述相关的维度值所在的下一层可枚举维度作为本次下钻的可枚举维度;其中,所述相关的维度值满足以下要求:记录有所述前次下钻的维度值的目标数据中记录有所述相关的维度值的概率满足第一概率要求,记录有所述相关的维度值的目标数据中记录有所述前次下钻的维度值的概率满足第二概率要求。7.根据权利要求4所述的方法,根据前次下钻的维度值,在所述本次下钻的可枚举维度对应的各个维度值中选取本次下钻的维度值,包括:在所述本次下钻的可枚举维度对应的各个维度值中,筛选与前次下钻的维度值相关的维度值,并计算筛选得到的各个相关的维度值针对数据波动的贡献度;在筛选得到的各个相关的维度值中,选取所述贡献度最大的维度值作为本次下钻的维度值;其中,所述相关的维度值满足以下要求:记录有所述前次下钻的维度值的目标数据中记录有所述相关的维度值的概率满足第一概率要求,记录有所述相关的维度值的目标数据中记录有所述前次下钻的维度值的概率满足第二概率要求。8.一种数据钻取装置,包括:数据获取模块,用...
【专利技术属性】
技术研发人员:唐欣,庞磊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。