对多维数据集之间的差异的自动分析制造技术

技术编号:19821804 阅读:73 留言:0更新日期:2018-12-19 14:42
根据本公开的实现,提出了一种用于对多维数据集之间的差异的自动分析方案。在该方案中,接收针对第一数据集和第二数据集的分析请求,第一数据集和第二数据集各自包括与多个维度对应的数据项。响应于分析请求,比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项。基于比较确定与第一维度相关联的第一组影响因素,第一组影响因素中的每一个从相应的角度指示第一数据集与第二数据集之间的差异的原因。至少部分基于第一组影响因素,呈现与第一数据集和第二数据集之间的差异有关的分析结果。通过这种方式,实现了对不同数据集差异的自动和有效的分析。

【技术实现步骤摘要】
对多维数据集之间的差异的自动分析
技术介绍
在如今的信息时代,随着可获得的数据源不断增长,数据变得无处不在并且在数量和维度上都有所增加。数据分析或数据探索旨在从多维数据中挖掘出用户感兴趣的信息,这在数据挖掘、商业智能等诸多应用领域发挥着越来越重要的作用。在很多使用场景中,用户对不同数据集的数据变化情况感兴趣,并且期望能够了解到可能与这样的变化有关的原因。然而,目前还缺乏能够自动且有效地分析出不同的多维数据集之间的差异的原因。用户可能需要指定如何将多维数据集继续划分为具有更少维度的子集,然后对数据量较小的子集进行人工分析。这样的分析过程不仅效率差,而且准确性也很低。因此,面对海量的多维数据,如何为用户提供更快更准确的分析结果是数据分析面临的挑战。
技术实现思路
根据本公开的实现,提出了一种用于对多维数据集之间的差异的自动分析方案。在该方案中,接收针对第一数据集和第二数据集的分析请求,第一数据集和第二数据集各自包括与多个维度对应的数据项。响应于分析请求,比较第一数据集和第二数据集中与多个维度中的第一维度对应的数据项。基于比较确定与第一维度相关联的第一组影响因素,第一组影响因素中的每一个因素从相应的角度指示第一数据集与第二数据集之间的差异的原因。至少部分基于第一组影响因素,呈现与第一数据集和第二数据集之间的差异有关的分析结果。通过这种方式,实现了对不同数据集差异的自动和有效的分析。提供
技术实现思路
部分是为了简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。附图说明图1示出了能够实施本公开的多个实现的计算环境的框图;图2示出了根据本公开的一个实现的数据分析的过程的流程图;图3示出了根据本公开的一个实现的数据子集的示例;图4示出了根据本公开的一个实现的用于数据项的比较的过程的流程图;图5示出了根据本公开的一个实现的基于第一分析策略的比较的过程的流程图;图6示出了根据本公开的一个实现的基于第二分析策略的比较的过程的流程图;图7示出了根据本公开的一个实现的基于第三分析策略的比较的过程的流程图;以及图8示出了根据本公开的一个实现的分析结果的呈现的示意图。这些附图中,相同或相似参考符号用于表示相同或相似元素。具体实施方式现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本主题的范围的任何限制。如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如本文中所使用的,术语“维度”指的是数据集或数据子集中某一类别或类型的数据。维度用于对数据集或数据子集中的不同类型的数据进行分组。多维数据集包括多个维度的数据。例如,在与电影票房收入有关的数据集中,可以包括与票房收入、放映日期、放映地点、电影名、电影体裁、电影分级等有关的各类数据,其中“票房收入”、“放映日期”、“放映地点”、“电影片名”、“电影体裁”和“电影分级”指的是该数据集的六个不同维度。这些维度中的数据组成相应的数据集。如本文中所使用的,术语“数据项”是数据集的每个维度中的单位数据。一个维度中的数据项也可以被称为该维度的维度取值。每个数据项的含义可以由该维度以及限制该数据项的其他一个或多个维度来指示。例如,在包括与电影票房收入有关的数据集中,在“票房收入”维度中,每个数据项可以指示某个票房收入。该数据项还可以由其他维度来解释,用以表示在某个放映日期、某个放映地点、特定体裁、分级和/或电影的票房收入。在仅包括“票房收入”与“放映日期”两个维度的数据集中,“票房收入”维度中的数据项仅指示在特定放映日期的票房收入。一般而言,数据项可以是类别数据项、次序数据项或度量数据项。例如,“放映地点”、“电影片名”、“电影体裁”和“电影分级维度”中的数据项属于类别数据项;“放映日期”维度中的数据项属于次序数据项;而“票房收入”中的数据项反映与统计有关的定量属性,因此属于度量数据项。度量数据项通常是数值。多维数据集可以被划分为不同的数据子集。数据子集也可以被称为数据集的子空间(subspace),可以由多维数据集的多个维度以及这些维度中的特定数据项来限定。也就是说,每个数据子集可以通过一对或多对<维度、数据项>来限定,并且包括除了用于限定的维度之外其他维度的全部数据。每个数据子集包含的其他维度的数据根据用于限定数据子集的<维度、数据项>对来确定。应当理解,从多维数据集中划分出数据子集可以采用各种数据拆分技术来实现。举例而言,在上述与电影票房收入有关的示例中,多维数据集可以按照“放映日期”维度的不同放映日期被划分为不同的数据子集,每个数据子集包含除了“放映日期”维度之外其他维度的全部数据。在另一个示例中,还可以按照“放映时间”和“放映地点”两个维度来划分不同数据子集,使得每个数据子集对应于特定放映时间和特定放映地点并且包含除了这两个维度之外其他维度的数据。在提供各种各样类型的数据的多维数据集中,用户可能对包含同一类型数据的不同多维数据集中的数据变化(特别是度量数据的变换)感兴趣,并且因此期望探索这样的数据变化的原因。例如,用户可能观察到某一天的电影票房收入相比于前一天具有显著增长,因此期望能够获知出现这样的增长的可能原因。目前没有有效的数据分析工具能够自动地为用户提供可靠和准确的原因分析。用户可能需要手动地从与票房收入有关的多维数据集的不同维度查看数据。这样的分析过程不仅效率低、而且难以获得可靠和准确的结果。根据本公开的实现,提出了一种用于对多维数据的分析的方案。在该方案中,响应于接收到对两个数据集的分析请求,比较两个数据集在同一维度中对应的数据项,并且基于比较来确定与该维度相关联的一个或多个影响因素。每个影响因素从相应的角度指示两个数据集之间的差异的原因。基于确定的影响因素,可以呈现与两个数据集之间的差异有关的分析结果。通过该方案,可以从分离的维度提供对两个数据集之间的差异的分析,并且对差异的分析可以由通过与预先定义的影响因素的匹配来确定。由此,实现了从个体维度来对不同数据集差异进行自动和有效的分析。以下参考附图来说明本公开的基本原理和若干示例实现。示例环境图1示出了能够实施本公开的多个实现的计算环境100的框图。应当理解,图1所示出的计算环境100仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示,计算环境100包括通用计算设备形式的计算系统/服务器102。计算系统/服务器102可以用于实施本公开的实现的数据分析(以下也称为“数据分析设备102”)。计算系统/服务器102可以接收分析请求104并且提供分析结果106。计算系统/服务器102的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140本文档来自技高网...

【技术保护点】
1.一种计算机实施的方法,包括:接收针对第一数据集和第二数据集的分析请求,所述第一数据集和所述第二数据集各自包括与多个维度对应的数据项;响应于所述分析请求,比较所述第一数据集和所述第二数据集中与所述多个维度中的第一维度对应的所述数据项;基于所述比较确定与所述第一维度相关联的第一组影响因素,所述第一组影响因素中的每一个从相应的角度指示所述第一数据集与所述第二数据集之间的差异的原因;以及至少部分基于所述第一组影响因素,呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果。

【技术特征摘要】
1.一种计算机实施的方法,包括:接收针对第一数据集和第二数据集的分析请求,所述第一数据集和所述第二数据集各自包括与多个维度对应的数据项;响应于所述分析请求,比较所述第一数据集和所述第二数据集中与所述多个维度中的第一维度对应的所述数据项;基于所述比较确定与所述第一维度相关联的第一组影响因素,所述第一组影响因素中的每一个从相应的角度指示所述第一数据集与所述第二数据集之间的差异的原因;以及至少部分基于所述第一组影响因素,呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果。2.根据权利要求1所述的方法,其中呈现与所述第一数据集和所述第二数据集之间的所述差异有关的分析结果还包括:进一步比较所述第一数据集和所述第二数据集中与所述多个维度中的第二维度对应的所述数据项;基于所述进一步比较,确定与所述第二维度相关联的第二组影响因素,所述第二组影响因素中的每一个从相应的角度指示所述第一数据集与所述第二数据集之间的差异的原因;从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素;以及基于所确定的至少一组影响因素,呈现针对所述第一数据集和所述第二数据集的分析结果。3.根据权利要求2所述的方法,其中从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素包括:基于为所述第一组影响因素分配的第一组预定权重,确定所述第一组影响因素相对于所述差异的第一重要度;基于为所述第二组影响因素分配的第二组预定权重,确定所述第二组影响因素相对于所述差异的第二重要度;以及基于所述第一重要度和所述第二重要度,从所述第一组影响因素和所述第二组影响因素中确定至少一组影响因素。4.根据权利要求3所述的方法,其中所述第一组预定权重和所述第二组预定权重与所述分析请求的类型有关。5.根据权利要求1所述的方法,其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:基于以下至少一项确定分析策略:所述分析请求的类型,以及所述第一数据集或所述第二数据集中与所述第一维度对应的数据项的数目;以及基于所述分析策略来将所述第一数据集和所述第二数据集的所述第一维度对应的不同数据项相比较,以确定与所述第一维度相关联的第一组影响因素。6.根据权利要求1所述的方法,其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类。7.根据权利要求6所述的方法,其中所述数据项包括数值,并且其中对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类包括:确定所述第一数据集中与所述第一维度对应的数值和所述第二数据集中与所述第一维度对应的数值之间的差值;以及聚类由所述差值与所述第一数据集或所述第二数据集中与所述第一维度对应的相应数值组成的配对。8.根据权利要求6所述的方法,其中对所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项执行聚类包括:聚类由所述第一数据集中与所述第一维度对应的数据项和所述第二数据集中与所述第一维度对应的相应数据项组成的配对。9.根据权利要求1所述的方法,其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:确定所述第一数据集中与所述第一维度对应的数据项和所述第二数据集中与所述第一维度对应的数据项之间的回归拟合。10.根据权利要求9所述的方法,其中所述回归拟合选自包括以下的组:过原点的回归拟合、有截距的回归拟合和负相关的回归拟合。11.根据权利要求1所述的方法,其中所述数据项包括数值,并且其中比较所述第一数据集和所述第二数据集中与所述第一维度对应的所述数据项包括:确定所述第一数据集中与所述第一维度对应的数值和所述第二数据集中与所述第一维度对应的数值之间的差值;以及通过将所述差值相比较来标识所述第一数据集和所述第二数据集中的至少一个数据集中包括的异常数据项。12.一种设备,包括...

【专利技术属性】
技术研发人员:丁锐傅周宇韩石张海东张冬梅
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1