当前位置: 首页 > 专利查询>清华大学专利>正文

大规模数据集进行网格布局的可视化的系统、方法和计算机程序产品技术方案

技术编号:43152121 阅读:28 留言:0更新日期:2024-10-29 17:52
本发明专利技术公开了大规模数据集进行网格布局的可视化的计算机系统、方法和程序产品,方法包括:获取带有类别层次结构的大规模数据集以及在显示页面上显示的样本个数K,大规模数据集包含N个样本、类别层次结构以及样本对类别的隶属度;从N个样本中随机抽取第一组K个样本;计算第一组K个样本中每个样本对于第一类别中每个类别的隶属度;计算第一组K个样本中每个样本在显示页面上的布局位置;为第一类别中的每个类别分配一种颜色;在显示页面上显示第一组K个样本。该系统、方法和程序产品能够在对带有类别层次结构的大规模数据集进行探索的过程中保持视觉的稳定性,及将混淆样本放置在混淆聚类类别的边界处,使用户容易追踪与分析数据。

【技术实现步骤摘要】

本公开涉及数据的可视化,特别地,本公开涉及一种对带有类别层次结构的大规模数据集进行网格布局的可视化的计算机系统、方法和计算机程序产品。


技术介绍

1、网格布局是一种常用的可视化布局方法,其具有空间利用率高、元素不重叠的优点,在机器学习领域广为运用。在最近的工作中,网格布局方法中引入了面向聚类的概念,其将相似的数据样本放置到相近的网格位置上,同时强化每个聚类的样本对应网格图形的紧凑性、凸性,帮助用户感知样本的相似性与聚类结构。但是,在面对十万甚至百万规模的大规模数据时,此种方法难以及时地完成可视化布局。对大规模数据进行可视化的一种有效方式是运用数据中的层次聚类结构,并采用交互逐级放大的方式来探索数据。但是现有的面向聚类的网格布局方法应用此种方式时,难以在逐级放大探索的过程中保持视觉的稳定性,使用户难以追踪与分析数据。


技术实现思路

1、以下描述包括体现本公开技术的示例性方法、系统、技术和指令序列。然而,应该理解,在一个或多个方面,可以在没有这些具体细节的情况下实践所描述的专利技术。在其他情况下,没有详细示出公知本文档来自技高网...

【技术保护点】

1.一种对带有类别层次结构的大规模数据集进行网格布局的可视化的计算机系统,该系统包括:

2.根据权利要求1所述的计算机系统,其中所述布局模块被进一步配置为:

3.根据权利要求2所述的计算机系统,其中根据所述第一类别中的每个类别在所述显示页面上的网格形状、所述第一组K个样本的样本特征以及所述第一组K个样本对于所述第一类别中的每个类别的隶属度,为所述第一组K个样本分配网格位置,使得特征相似的样本被放置在区域的网格形状中的相近的网格位置上,并且使得混淆样本被放置到靠近区域的网格形状的混淆边界的位置处,其中所述混淆样本以及所述混淆边界根据所述第一组K个样本对于所述第一类别...

【技术特征摘要】

1.一种对带有类别层次结构的大规模数据集进行网格布局的可视化的计算机系统,该系统包括:

2.根据权利要求1所述的计算机系统,其中所述布局模块被进一步配置为:

3.根据权利要求2所述的计算机系统,其中根据所述第一类别中的每个类别在所述显示页面上的网格形状、所述第一组k个样本的样本特征以及所述第一组k个样本对于所述第一类别中的每个类别的隶属度,为所述第一组k个样本分配网格位置,使得特征相似的样本被放置在区域的网格形状中的相近的网格位置上,并且使得混淆样本被放置到靠近区域的网格形状的混淆边界的位置处,其中所述混淆样本以及所述混淆边界根据所述第一组k个样本对于所述第一类别中的每个类别的隶属度以及所述第一类别中的每个类别在所述显示页面上的网格形状定义包括:

4.根据权利要求1-3之一所述的计算机系统,该计算机系统还包括:

5.根据权利要求4所述的计算机系统,其中响应于所述显示页面中的特定网格区域被选择:

6.根据权利要求5所述的计算机系统,其中所述布局模块被进一步配置为:

7.一种...

【专利技术属性】
技术研发人员:刘世霞周雨星陈长建杨维铠朱江宁沈之洋
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1