【技术实现步骤摘要】
对多维数据集之间的差异的自动分析
技术介绍
在如今的信息时代,随着可获得的数据源不断增长,数据变得无处不在并且在数量和维度上都有所增加。数据分析或数据探索旨在从多维数据中挖掘出用户感兴趣的信息,这在数据挖掘、商业智能等诸多应用领域发挥着越来越重要的作用。在很多使用场景中,用户对不同数据集的数据变化情况感兴趣,并且期望能够了解到可能与这样的变化有关的原因。然而,目前还缺乏能够自动且有效地分析出不同的多维数据集之间的差异的原因。用户可能需要指定如何将多维数据集继续划分为具有更少维度的子集,然后对数据量较小的子集进行人工分析。这样的分析过程不仅效率差,而且准确性也很低。因此,面对海量的多维数据,如何为用户提供更快更准确的分析结果是数据分析面临的挑战。
技术实现思路
根据本公开的实现,提出了一种用于对多维数据集之间的差异的自动分析方案。在该方案中,接收针对第一数据集和第二数据集的分析请求,第一数据集和第二数据集各自包括与多个维度对应的数据项。响应于分析请求,比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项。基于比较确定与第一维度相关联的第一组影响因素,第一组影响因素中的每一个因素从相应的角度指示第一数据集与第二数据集之间的差异的原因。至少部分基于第一组影响因素,呈现与第一数据集和第二数据集之间的差异有关的分析结果。通过这种方式,实现了对不同数据集差异的自动和有效的分析。提供
技术实现思路
部分是为了简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。附图说 ...
【技术保护点】
1.一种计算机实施的方法,包括:接收针对第一数据集和第二数据集的分析请求,所述第一数据集和所述第二数据集各自包括与多个维度对应的数据项;响应于所述分析请求,比较所述第一数据集和所述第二数据集中与所述多个维度中的第一维度对应的所述数据项;基于所述比较确定与所述第一维度相关联的第一组影响因素,所述第一组影响因素中的每一个从相应的角度指示所述第一数据集与所述第二数据集之间的差异的原因;以及至少部分基于所述第一组影响因素,呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果。
【技术特征摘要】
1.一种计算机实施的方法,包括:接收针对第一数据集和第二数据集的分析请求,所述第一数据集和所述第二数据集各自包括与多个维度对应的数据项;响应于所述分析请求,比较所述第一数据集和所述第二数据集中与所述多个维度中的第一维度对应的所述数据项;基于所述比较确定与所述第一维度相关联的第一组影响因素,所述第一组影响因素中的每一个从相应的角度指示所述第一数据集与所述第二数据集之间的差异的原因;以及至少部分基于所述第一组影响因素,呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果。2.根据权利要求1所述的方法,其中呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果还包括:进一步比较所述第一数据集和所述第二数据集中与所述多个维度中的第二维度对应的所述数据项;基于所述进一步比较,确定与所述第二维度相关联的第二组影响因素,所述第二组影响因素中的每一个从相应的角度指示所述第一数据集与所述第二数据集之间的差异的原因;从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素;以及基于所确定的至少一组影响因素,呈现针对所述第一数据集和所述第二数据集的分析结果。3.根据权利要求2所述的方法,其中从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素包括:基于为所述第一组影响因素分配的第一组预定权重,确定所述第一组影响因素相对于所述差异的第一重要度;基于为所述第二组影响因素分配的第二组预定权重,确定所述第二组影响因素相对于所述差异的第二重要度;以及基于所述第一重要度和所述第二重要度,从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素。4.根据权利要求3所述的方法,其中所述第一组预定权重和所述第二组预定权重与所述分析请求的类型有关。5.根据权利要求1所述的方法,其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:基于以下至少一项确定分析策略:所述分析请求的类型,以及所述第一数据集或所述第二数据集中与所述第一维度对应的数据项的数目;以及基于所述分析策略来将所述第一数据集和所述第二数据集的所述第一维度对应的不同数据项相比较,以确定与所述第一维度相关联的第一组影响因素。6.根据权利要求1所述的方法,其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类。7.根据权利要求6所述的方法,其中所述数据项包括数值,并且其中对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类包括:确定所述第一数据集中与所述第一维度对应的数值和所述第二数据集中与所述第一维度对应的数值之间的差值;以及聚类由所述差值与所述第一数据集或所述第二数据集中与所述第一维度对应的相应数值组成的配对。8.根据权利要求6所述的方法,其中对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类包括:聚类由所述第一数据集中与所述第一维度对应的数据项和所述第二数据集中与所述第一维度对应的相应数据项组成的配对。9.根据权利要求1所述的方法,其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:确定所述第一数据集中与所述第一维度对应的数据项和所述第二数据集中与所述第一维度对应的数据项之间的回归拟合。10.根据权利要求9所述的方法,其中所述回归拟合选自包括以下的组:过原点的回归拟合、有截距的回归拟合和负相关的回归拟合。11.根据权利要求1所述的方法,其中所述数据项包括数值,并且其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:确定所述第一数据集中与所述第一维度对应的数值和所述第二数据集中与所述第一维度对应的数值之间的差值;以及通过将所述差值相比较来标识所述第一数据集和所述第二数据集中的至少一个数据集中包括的异常数据项。12.一种设备,包括...
【专利技术属性】
技术研发人员:丁锐,傅周宇,韩石,张海东,张冬梅,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。