数据钻取方法和装置制造方法及图纸

技术编号:22166713 阅读:19 留言:0更新日期:2019-09-21 10:29
本申请实施例提供了一种数据钻取方法和装置,其中,方法包括:首先,获取待钻取的多条目标数据,该多条目标数据具有对应的数据维度,各条目标数据中记录有与该数据维度相对应的维度值,然后,通过数据挖掘的方式,在上述的多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个可枚举维度之间的层级关系,最后,基于可枚举维度和各个可枚举维度之间的层级关系,逐层对上述的多条目标数据进行钻取。

Data Drilling Method and Device

【技术实现步骤摘要】
数据钻取方法和装置
本申请涉及计算机
,尤其涉及一种数据钻取方法和装置。
技术介绍
在数据分析场景中,数据库内可以存储有业务数据,比如交易明细数据等。当业务指标发生波动时,比如交易量发生下跌时,通过在数据库内钻取数据可以确定数据波动的主要原因。目前在数据库内钻取数据时,通常遍历所有维度的数据,对各个维度的数据均进行下钻。然而,遍历所有维度的数据具有数据钻取速度慢、效率低的问题。
技术实现思路
本申请实施例的目的是提供一种数据钻取方法和装置,以提高数据钻取效率。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供了一种数据钻取方法,包括:获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。本申请实施例提供了一种数据钻取装置,包括:数据获取模块,用于获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;层级确定模块,用于通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;数据钻取模块,用于基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。本申请实施例提供了一种数据钻取设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述的数据钻取方法的步骤。本申请实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述的数据钻取方法的步骤。通过本申请实施例,首先获取待钻取的多条目标数据,然后通过数据挖掘的方式,在多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个可枚举维度之间的层级关系,最后基于可枚举维度和各个可枚举维度之间的层级关系,逐层对多条目标数据进行钻取。由于本申请实施例中基于可枚举维度和各个可枚举维度之间的层级关系,逐层对多条目标数据进行钻取,不需要对所有维度的数据均进行下钻,因此能够提高数据钻取效率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的数据钻取方法的流程示意图;图2a为本申请一实施例提供的班级维度对应的维度值取值数量与目标数据的条数之间的关系示意图;图2b为本申请一实施例提供的姓名维度对应的维度值取值数量与目标数据的条数之间的关系示意图;图3为本申请一实施例提供的可枚举维度之间的层级关系的示意图;图4为本申请一实施例提供的数据钻取装置的模块组成示意图;图5为本申请一实施例提供的数据钻取设备的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请实施例提供的数据钻取方法可以由数据钻取设备执行,数据钻取设备可以为后台服务器。图1为本申请一实施例提供的数据钻取方法的流程示意图,如图1所示,该方法包括以下流程:步骤S102,获取待钻取的多条目标数据;其中,该多条目标数据具有对应的数据维度,各条目标数据中记录有与该数据维度相对应的维度值;步骤S104,通过数据挖掘的方式,在多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个可枚举维度之间的层级关系;步骤S106,基于可枚举维度和各个可枚举维度之间的层级关系,逐层对上述的多条目标数据进行钻取。可见,通过本申请实施例,首先获取待钻取的多条目标数据,然后通过数据挖掘的方式,在多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个可枚举维度之间的层级关系,最后基于可枚举维度和各个可枚举维度之间的层级关系,逐层对多条目标数据进行钻取。由于本申请实施例中基于可枚举维度和各个可枚举维度之间的层级关系,逐层对多条目标数据进行钻取,不需要对所有维度的数据均进行下钻,因此能够提高数据钻取效率。上述步骤S102中,获取待钻取的多条目标数据,该多条目标数据具有对应的数据维度,各条目标数据中记录有与该数据维度相对应的维度值。比如,目标数据可以为线下交易日志数据,则目标数据对应的数据维度包括但不限于:交易时间、交易金额、付款方、收款品牌、交易门店、交易街道、交易城市、交易国家等,该例中,一条目标数据可以举例为:2019年1月1日12点-500元-张三-肯德基-肯德基新业路店-新业路-武汉市-中国。又如,目标数据可以为学习成绩数据,则目标数据对应的数据维度包括但不限于:姓名、性别、年龄、班级、年级、科目、成绩等,该例中,一条目标数据可以举例为:小红-女-12岁-3班-5年级-语文-99分。上述步骤S104中,通过数据挖掘的方式,在多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个可枚举维度之间的层级关系。可枚举维度指的是对应的维度值的取值能够枚举的维度,可枚举维度对应的维度值的取值的数量随着目标数据的条数的增多而呈现收敛状态。比如上面的例子中,收款品牌、交易门店、交易街道、交易城市、交易国家属于可枚举维度,班级、年级、科目、成绩属于可枚举维度。本申请实施例中,通过数据挖掘的方式,在多条目标数据对应的各个数据维度中确定可枚举维度,具体可以是:(a1)在多条目标数据中分次提取不同条数的目标数据,在每次提取出来的目标数据中,确定每个数据维度对应的维度值取值数量;(a2)根据每次提取出的目标数据中每个数据维度对应的维度值取值数量,以及,每次提取出来的目标数据的条数,确定随目标数据的条数的增长,对应的维度值取值数量呈现收敛状态的数据维度;(a3)将该对应的维度值取值数量呈现收敛状态的数据维度确定为可枚举维度。具体地,上述动作(a1)中,在多条目标数据中分次提取不同条数的目标数据,比如在多条目标数据中分别3次提取不同条数的目标数据,比如第一次提取500条目标数据,第二次提取5000条目标数据,第三次提取50000条目标数据。在每次提取出来的目标数据中,确定每个数据维度对应的维度值取值数量,维度值取值数量为对应的数据维度所取的不同的维度值的数量。比如,假设数据维度包括“城市”和“国家”,则在第一次提取出来的500条目标数据中,确定“城市”对应的维度值取值数量,比如“城市”对应的维度值取值数量为三个,分别为杭州武汉和上海,以及确定“国家”对应的维度值取值数量,比如“国家”对应的维度值取值数量为两个,分别为中国和日本;当然,还需要在第二次提取出来的5000条目标数据和第三次提取出来的50000条目标数据本文档来自技高网
...

【技术保护点】
1.一种数据钻取方法,包括:获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。

【技术特征摘要】
1.一种数据钻取方法,包括:获取待钻取的多条目标数据;其中,所述多条目标数据具有对应的数据维度,各条所述目标数据中记录有与所述数据维度相对应的维度值;通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,并确定各个所述可枚举维度之间的层级关系;基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取。2.根据权利要求1所述的方法,通过数据挖掘的方式,在所述多条目标数据对应的各个数据维度中确定可枚举维度,包括:在所述多条目标数据中分次提取不同条数的目标数据,在每次提取出来的所述目标数据中,确定每个所述数据维度对应的维度值取值数量;根据每次提取出的所述目标数据中每个所述数据维度对应的维度值取值数量,以及,每次提取出来的所述目标数据的条数,确定随所述目标数据的条数的增长,对应的维度值取值数量呈现收敛状态的数据维度;将所述对应的维度值取值数量的数据维度确定为可枚举维度。3.根据权利要求1所述的方法,通过数据挖掘的方式,确定各个所述可枚举维度之间的层级关系,包括:通过预设的关联规则挖掘算法,在所述可枚举维度对应的各个维度值中挖掘得到多个目标维度值对;其中,所述目标维度值对包括第一维度值和第二维度值,记录有所述第一维度值的目标数据中记录有所述第二维度值的概率满足第一概率要求,记录有所述第二维度值的目标数据中记录有第一维度值的概率满足第二概率要求;确定所述第一维度值所在的可枚举维度为第一可枚举维度,确定所述第二维度值所在的可枚举维度为第二可枚举维度;若所述第一可枚举维度的超过预定数量比例的维度值分别与所述第二可枚举维度的多个维度值组成所述目标维度值对,则确定所述第一可枚举维度为所述第二可枚举维度的上级维度。4.根据权利要求1至3任一项所述的方法,基于所述可枚举维度和各个所述可枚举维度之间的层级关系,逐层对所述多条目标数据进行钻取,包括:按照各个所述可枚举维度之间的层级关系,确定前次下钻的可枚举维度的各个下一层可枚举维度,在所述各个下一层可枚举维度中选取本次下钻的可枚举维度;其中,第一次下钻时在第一层的可枚举维度中选取第一次下钻的可枚举维度;根据前次下钻的维度值,在所述本次下钻的可枚举维度对应的各个维度值中选取本次下钻的维度值;其中,第一次下钻时在第一次下钻的可枚举维度对应的各个维度值中选取第一次下钻的维度值;若按照各个所述可枚举维度之间的层级关系,确定本次下钻的可枚举维度具有对应的下层可枚举维度,则继续确定下次下钻的可枚举维度和下次下钻的维度值,反之,将包含本次下钻的维度值的目标数据作为数据钻取结果。5.根据权利要求4所述的方法,在所述各个下一层可枚举维度中选取本次下钻的可枚举维度,包括:计算所述各个下一层可枚举维度针对数据波动的交叉熵;在所述各个下一层可枚举维度中选取所述交叉熵最大的维度作为本次下钻的可枚举维度。6.根据权利要求4所述的方法,在所述各个下一层可枚举维度中选取本次下钻的可枚举维度,包括:分别确定每个所述下一层可枚举维度对应的各个维度值,在确定的各个维度值中筛选与前次下钻的维度值相关的维度值;计算筛选得到的各个所述相关的维度值针对数据波动的贡献度,将贡献度最大的所述相关的维度值所在的下一层可枚举维度作为本次下钻的可枚举维度;其中,所述相关的维度值满足以下要求:记录有所述前次下钻的维度值的目标数据中记录有所述相关的维度值的概率满足第一概率要求,记录有所述相关的维度值的目标数据中记录有所述前次下钻的维度值的概率满足第二概率要求。7.根据权利要求4所述的方法,根据前次下钻的维度值,在所述本次下钻的可枚举维度对应的各个维度值中选取本次下钻的维度值,包括:在所述本次下钻的可枚举维度对应的各个维度值中,筛选与前次下钻的维度值相关的维度值,并计算筛选得到的各个相关的维度值针对数据波动的贡献度;在筛选得到的各个相关的维度值中,选取所述贡献度最大的维度值作为本次下钻的维度值;其中,所述相关的维度值满足以下要求:记录有所述前次下钻的维度值的目标数据中记录有所述相关的维度值的概率满足第一概率要求,记录有所述相关的维度值的目标数据中记录有所述前次下钻的维度值的概率满足第二概率要求。8.一种数据钻取装置,包括:数据获取模块,用...

【专利技术属性】
技术研发人员:唐欣庞磊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1