一种数据相关性分析方法及装置制造方法及图纸

技术编号:20120257 阅读:51 留言:0更新日期:2019-01-16 12:30
本申请涉及数据分析技术领域,尤其涉及一种数据相关性分析方法及装置,为解决现有技术存在的只能依靠人工方式进行数据相关性分析的问题,该方法为,将多维数据集以维度为单位划分为若干数据子集,一个数据子集对应一个维度,且一个数据子集在相应维度下包含若干度量,并计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,以及基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,这样,无需人工干预,多维数据集中每一个维度下的每一个度量对,都会被进行相关性分析,而且避免了重复繁琐的人工作业,有效提高了作业效率,降低了分析成本。

A Data Relevance Analysis Method and Device

This application relates to the field of data analysis technology, in particular to a data correlation analysis method and device. In order to solve the problem that the existing technology can only rely on manual data correlation analysis, the method divides a multi-dimensional data set into several data subsets in terms of dimensions, one data subset corresponds to one dimension, and one data subset corresponds to the corresponding dimension. The following includes several metrics, and calculates the fitting line of at least one metric pair in the corresponding dimension in at least one data subset, and determines the correlation of at least one metric pair in at least one data subset to the corresponding two metrics in the corresponding dimension based on the fitting line. Thus, without manual intervention, each metric pair in each dimension in the multi-dimensional data set. It can be used for correlation analysis, and avoid repetitive and tedious work. It can effectively improve the efficiency of work and reduce the cost of analysis.

【技术实现步骤摘要】
一种数据相关性分析方法及装置
本申请涉及数据分析
,尤其涉及一种数据相关性分析方法及装置。
技术介绍
商业数字化的今天,越来越多的公司开始倡导“用数据说话”,利用数据分析来帮助公司进行商务运营和制定决策,其中,相关性提取就是最常见的一种数据分析方式。现有技术下,通常是通过专业数据分析师,以人工方式提取数据集中具有相关性的数据,以销售类数据为例,销售量越多,销售额也就越高,即可确定销售量和销售额之间存在一定的相关性,经过人工分析,确定销售量和销售额之间呈正相关。然而,对于多维数据集来说,继续采用人工方式,从多维数据集中逐一筛选具有相关性的数据子集,工作量太大,而且容易遗漏,显然是不可取的。有鉴于此,需要设计一种新的多维数据集相关性分析方法以克服上述缺陷。
技术实现思路
本申请实施例提供一种数据相关性分析方法及装置,用以解决现有技术中存在的只能依靠人工方式进行数据相关性分析的问题。本申请实施例提供的具体技术方案如下:第一方面,一种数据相关性分析方法,包括:以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;计算得到至本文档来自技高网...

【技术保护点】
1.一种数据相关性分析方法,其特征在于,包括:以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。

【技术特征摘要】
1.一种数据相关性分析方法,其特征在于,包括:以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。2.如权利要求1所述的方法,其特征在于,计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,包括:分别将至少一个数据子集中的每两个度量确定为一个度量对;针对至少一个数据子集的至少一个度量对执行以下操作:基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线;基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性。3.如权利要求2所述的方法,其特征在于,分别将至少一个数据子集中的每两个度量确定为一个度量对之后,针对至少一个数据子集的至少一个度量对执行以下操作之前,进一步包括:分别计算所述至少一个数据子集中至少一个度量对中两个度量之间的相关系数;筛选出所得相关系数大于设定阈值的度量对。4.如权利要求1、2或3所述的方法,其特征在于,基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线,包括:分别计算一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值对应的度量最大值、度量最小值、度量均值和度量标准差;以所述一个度量对包含的两个度量中的任一个度量为横轴,另一个度量为纵轴,基于所述度量对中包含的两个度量各自对应的度量均值和度量标准差,确定所述度量对相应的线性关系;基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量;基于确定的两组横轴已知量和纵轴已知量,确定对应的拟合线。5.如权利要求4所述的方法,其特征在于,确定所述度量对相应的线性关系之后,基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量之前,进一步包括:基于横轴上对应的度量的度量均值的数量级,以及基于纵轴上对应的度量的度量均值的数量级,选取合适的坐标单位;基于所述坐标单位,分别确定横轴上对应的度量的缩放倍数和纵轴上对应的度量的缩放倍数;分别基于横轴上对应的度量的所述缩放倍数和纵轴上对应的度量的所述缩放倍数,对所述线性关系进行等比例的调整。6.如权利要求2所述的方法,...

【专利技术属性】
技术研发人员:张勇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1