用于检测和描述可视化上的可视特性的方法和系统技术方案

技术编号:9935546 阅读:78 留言:0更新日期:2014-04-18 07:45
一种方法,包括:检测视图空间内的一组数据中的可视特性,包括标识所述视图空间中的潜在数据集群并建议所述潜在数据集群以便探索所检测的特性;使用数据空间表征所检测的可视特性,包括定义所标识的潜在数据集群的一个或多个特征;以及在可视化上覆盖所表征的检测到的特性以便支持交互,所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。

【技术实现步骤摘要】
用于检测和描述可视化上的可视特性的方法和系统
本专利技术涉及数据集中的数据特性的分析和可视化。更具体地说,在视图空间内的数据集中检测可视特性,描述和标识可视特性的语义,以及支持与所描述的可视特性的交互以便指导数据集的开发和理解。
技术介绍
信息可视化是一种越来越重要的工具,决策者可随意使用它将数据变成消费品。良好的可视化揭示数据中的结构和模式,并且便于探索关系。探索性可视化的挑战是表示复杂数据集(例如,具有多个维度的数据集)并与其交互。例如,对于高维数据,可视表示可以出现混乱,从而导致交互式探索的挑战。相应地,随着数据复杂性和多样性的增加,此类数据的可视化和探索的挑战也增加。科学、政府和企业的发展取决于以下能力:分析和理解数据,并根据从此类分析获得的洞察进行决策。需要针对在整个企业内进行任何种类决策所涉及的每个人改进数据的可消费性。此类解决方案应使得各种用户、专家和非专家等能够处理和开发对复杂数据集的理解。
技术实现思路
本专利技术包括一种用于检测数据集中的可视特性和交互式探索所检测的特性的方法。在一个方面,检测视图空间中的可视特性并支持与所检测的特性的交互。具体地说,检测视图空间内的一组数据中的可视特性。这包括标识所述视图空间中的潜在数据集群以及建议潜在数据集群以便探索。使用数据空间表征所检测的可视特性,并支持与所检测的特性的交互。所述特性的表征包括在可视化上覆盖所表征的检测的特性。所支持的交互包括跨两个或更多集群探索所检测到的特性以便比较选定数据。在另一个方面,评估视图空间中的可视特性,并支持与所检测的特性的交互以便探索。更具体地说,一种方法通过标识所述视图空间中的一个或多个潜在数据集群,支持探索所评估的可视特性。在数据空间中表征所评估的特性,这包括定义所述潜在数据集群的特征以及覆盖所述特征以便支持交互。更具体地说,所支持的交互包括跨两个或更多数据集群探索所检测的特性以便比较选定数据。在一个方面,提供一种用于检测和覆盖有关数据集的特性的计算机程序产品。所述计算机程序产品包括计算机可读非瞬时性存储介质,所述计算机可读非瞬时性存储介质中包含计算机可读程序代码。当执行时,所述计算机可读程序代码导致计算机检测视图空间内的一组数据中的可视特性。可视特性的检测包括标识所述视图空间中的潜在数据集群,以及建议潜在数据集群以便探索。所述计算机程序产品使用数据空间表征所检测的可视特性,以及在可视化上覆盖所表征的检测的特性以便支持交互。所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。在另一个方面,提供一种用于标识和可视化数据集特性的系统。在所述系统中提供与数据存储装置通信的处理单元,所述数据存储装置具有至少一个数据集。提供与所述处理单元通信的功能单元。所述功能单元包括用于支持数据探索的工具。所述工具包括检测管理器、表征管理器、可视化管理器和交互管理器。所述检测管理器用于检测视图空间内的一组数据中的可视特性。更具体地说,所述检测管理器标识所述视图空间中的一个或多个潜在数据集群,并建议所述潜在数据集群以便探索。所述表征管理器与所述检测管理器通信,其用于使用数据空间表征所检测的可视特性。提供与所述表征管理器通信的可视化管理器,其用于在可视化上覆盖所表征的检测的特性以支持交互。提供与所述可视化管理器通信的交互管理器,其支持交互,包括跨两个或更多集群探索所检测的特性以便比较选定数据。在另一个方面,提供一种用于探索数据集的计算机程序产品。所述程序产品包括计算机可读存储介质,所述计算机可读存储介质具有可由处理器执行的程序代码。所述程序代码评估所述视图空间内的一组数据中的可视特性,表征所评估的可视特性,以及覆盖所述特性以便支持与其的交互。从以下结合附图的对本专利技术的目前优选实施例的详细描述,本专利技术的其它特性和优点将变得显而易见。附图说明在此参考的附图形成说明书的一部分。附图中示出的特性仅表示本专利技术的某些示例性实施例,并非表示本专利技术的所有实施例,除非明确地另有所指。另外不进行相反的暗示,这些附图是:图1是示出用于集群检测算法的方法的流程图;图2是示出用于检测数据集中的异常值的方法的流程图;图3示出具有方向趋势的数据集群的示意图;图4示出具有径向趋势的数据集群的示意图;图5是示出用于检测方向趋势的方法的流程图;图6是示出用于表征集群以呈现分析指导的过程的流程图;图7是示出用于计算加权总和的过程的流程图;图8是示出嵌入计算机系统中以便支持包括可视特性的检测和表征的数据探索的工具的框图;图9是示出用于实现本专利技术的一个实施例的系统的框图。具体实施方式将很容易地理解,本专利技术的组件如通常在此处附图中描述和示出的那样,可以以各种不同的配置来布置和设计。因此,以下对本专利技术的装置、系统和方法的实施例的详细描述如在附图中提供的那样,并非旨在限制要求保护的本专利技术的范围,而只是表示本专利技术的选定实施例。此说明书中对“一个选定实施例”、“一个实施例”或“实施例”的引用指结合该实施例描述的特定特性、结构或特征被包括在本专利技术的至少一个实施例中。因此,此说明书的各种位置中出现的短语“一个选定实施例”、“在一个实施例中”或“在实施例中”并非一定都指同一实施例。此外,所述特性、结构或特征可以以任何合适的方式组合在一个或多个实施例中。在以下描述中,提供了大量特定的详细信息,例如检测管理器、表征管理器、可视化管理器和交互管理器的实例,以便彻底理解本专利技术的实施例。但是,相关
的技术人员将认识到,可以在没有一个或多个特定的细节的情况下实现本专利技术,或者可以通过其它方法、组件、材料等实现本专利技术。在其它情况下,未详细示出或描述公知的结构、材料或操作以避免使本专利技术的各个方面变得模糊不清。通过参考附图最佳地理解本专利技术的所例示的实施例,其中在图中相同部件由相同标号指定。以下描述仅旨在作为实例,并且仅示出与在此要求保护的本专利技术一致的设备、系统和过程的某些选定实施例。在以下实施例的描述中,对形成其一部分的附图进行参考,并且其通过示例的方式示出其中可以实现本专利技术的特定实施例。应该理解,可以使用其它实施例,因为可以进行结构更改而不偏离本专利技术的范围。在数据挖掘中,可视集群是位于视图空间的密集区域附近的一组点,统称为任意形状的对象或结构。视图空间通常是数据集选定字段的二维或三维投影,通常在图形显示器上呈现以便用户可视化数据集。在一个实施例中,视图空间表示的数据集中的字段数量少于数据空间。同样,在一个实施例中,视图空间可以具有三维或更多维映射。从可视角度看,数据集群包括各种特征,包括但不限于分离、密度和形状。标识潜在集群并建议潜在集群以便探索。因此,数据探索的第一部分是标识一个或多个数据集群。应该理解,数据空间包含以n维表示的数据集中的所有数据,其中n是整数。数据空间被定义为表示数据集所有字段的n维空间。视图空间是数据集所映射到的m维空间,其中m是小于或等于n的整数。在一个实施例中,视图空间是数据所映射到的二维平面。因此,集群(被定义为位于密集区域附近的一组点)可以存在于视图空间中,而不存在于数据空间中。图1是示出集群检测算法的流程图(100)。根据数据点在视图空间中的位置,将数据点分配给相应网格单元(102)。对于每个占用的网格单元,计算平均网格单元密度(104)。在一个实施例中,本文档来自技高网
...
用于检测和描述可视化上的可视特性的方法和系统

【技术保护点】
一种方法,包括:检测视图空间内的一组数据中的可视特性,包括标识所述视图空间中的潜在数据集群并建议所述潜在数据集群以便探索所检测的特性;使用数据空间表征所检测的可视特性,包括定义所标识的潜在数据集群的一个或多个特征;以及在可视化上覆盖所表征的检测到的特性以便支持交互,所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。

【技术特征摘要】
2012.10.12 US 13/650,282;2012.12.28 US 13/729,1291.一种用于数据分析的方法,包括:检测视图空间内的一组数据中的可视特性,包括标识所述视图空间中的潜在数据集群并建议所述潜在数据集群以便探索所检测的特性;使用数据空间表征所检测的可视特性,包括定义所标识的潜在数据集群的一个或多个特征;检测所述一组数据的可视化趋势,包括识别集群的形状,将所述形状与趋势类型关联,标识展现所述趋势的一个或多个维度,以及确定所述趋势的强度,其中,采用实际数据值和与直线拟合关联的数据值确定数据集群中的方向趋势;以及在可视化上覆盖所表征的检测到的特性以便支持交互,所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。2.根据权利要求1的方法,其中检测一组数据中的可视特性包括:根据数据点在所述视图空间中的位置,将所述数据点分配给网格单元;针对占用的网格单元计算平均网格单元密度;以及为网格密度大于所述平均网格单元密度的网格单元分配集群标识符。3.根据权利要求2的方法,其中所述视图空间与所述一组数据中的维度数无关。4.根据权利要求2的方法,还包括扩展现有集群以便包括相邻网格单元。5.根据权利要求2的方法,还包括检测所标识的潜在数据集群中的异常值点,包括将所述异常值点与所述集群中的每个维度的所述平均网格单元密度相比较。6.根据权利要求1的方法,还包括检测由数据点集群和所检测的数据可视化趋势形成的任意形状,其中形状类型定义数据维度之间的关系。7.根据权利要求2的方法,还包括表征所标识的潜在数据集群,包括获得表示所述一组数据的语义。8.根据权利要求1的方法,还包括表示所述潜在数据集群的包含趋势和异常值的特征,以及在可视化上覆盖所表示的特征以便解释所检测的特性并提供交互支持,其中所述特征对应于密集集群、范围集群、异常值或趋势。9.根据权利要求8的方法,还包括与所表示的特征交互,包括在所述可视化中突出显示数据点以及覆盖注释以便解释从数据空间获得的可视特性的语义。10.一种用于数据分析的方法,包括:评估视图空间内的一组数据中的可视特性,包括标识所述视图空间中的潜在数据集群并建议所述潜在数据集群以便探索所评估的可视特性;使用数据空间表征所评估的可视特性,包括定义所标识的潜在数据集群的一个或多个特征;检测所述一组数据的可视化趋势,包括识别集群的形状,将所述形状与趋势类型关联,标识展现所述趋势的一个或多个维度,以及确定所述趋势的强度,其中,采用实际数据值和与直线拟合关联的数据值确定数据集群中的方向趋势;以及覆盖所表征的评估的特性以便支持交互,所支持的交互包括跨两个或更多集群探索所检测的特性以便比较选定数据。11.根据权利要求10的方法,还包括连续评估和表征所述视图空间中的可视特性。12.根据权利要求11的方法,其中所述可视特性的连续评估和表征响应于与所述一组数据...

【专利技术属性】
技术研发人员:E·坎多尔干
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1