当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于金字塔的散点图采样方法及系统技术方案

技术编号:30408222 阅读:44 留言:0更新日期:2021-10-20 11:19
本发明专利技术公开了一种基于金字塔的散点图采样方法及系统,包括:将获取的样本数据的散点图转换为密度图;基于密度图构建数据密度金字塔和视觉密度金字塔;以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数,根据数据密度金字塔和视觉密度金字塔逐层计算样本分配图中各区域分配的样本数,得到最终样本分配图;基于最终样本分配图选择样本点得到采样结果。将常用于图像处理的金字塔结构用于散点图采样,以解决过度绘制问题,通过融合数据密度图和视觉密度图来选取能同时保持好相对密度和异常值的效果采样点。对密度和异常值的效果采样点。对密度和异常值的效果采样点。

【技术实现步骤摘要】
一种基于金字塔的散点图采样方法及系统


[0001]本专利技术涉及散点图采样
,特别是涉及一种基于金字塔的散点图采样方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]可视化系统具有低延迟,以保持用户的注意力,从而支持有效的数据探索的作用。随着数据规模的不断增长,渐进式可视化已成为控制延迟的一种有希望的范例。通过将数据划分为多个块,可以在有限的带宽通道上每次传输单个数据块并逐步呈现可视化效果,从而使分析人员能够以受控的延迟体验探索中间结果,从而可以确保大数据可视化的计算可伸缩性。这种范式同样适用于流数据可视化,其中数据随着时间不断到来,而可视化会展示一个定长的滑动时间窗口内部的数据。
[0004]基于点的可视化通常用于显示各种形式的数据,例如双变量数据,降维数据和地理数据,为了方便起见,将它们统称为散点图。但是,这样的散点图在数据量过大时可能无法有效地工作,因为会受到过度绘制的困扰,即随着数据密度的增加,重叠的可视标记的数量也会增加,降低可视化的可读性。此外,具有不均匀分布的小数据也存在该问题。而基于密度的方法(如KDE)能够有效解决该问题,可以有效地揭示高密度区域中的数据模式。但是,这类方法有可能导致低密度区域中的数据模式(如离群点)不可见。
[0005]采样技术是一种广泛运用的解决方案,能够选取适用于展示的数据子集,常见目标为保持相对数据密度的准确性与低密度区域的异常值。最简单的随机采样以统一的方式对待所有数据点,能够很好的保持密集区域的相对密度准确性,但是会丢失低密度区域的离群点。因此,有很多研究者提出感知驱动的采样策略,试图同时保持好相对密度和离群点;典型的,陈等人(Chen,X.,Ge,T.,Zhang,J.,Chen,B.,Fu,C.W.,Deussen,O.,&Wang,Y.(2019).A recursive subdivision technique for sampling multi

class scatterplots.IEEE Transactions on Visualization and Computer Graphics,26(1),729

738.)提出一种基于递归划分的KD树的多类散点图采样技术,显式地特征化相对数据密度、相对类密度与主要离群点,能够在保持相对密度和异常值之间取得平衡。
[0006]然而,这些现存方法往往假设所有数据都能够被预先加载到内存中,对于无法全部加载到内存的大数据以及网络环境下逐步加载的数据等渐进式数据可能效果不好;例如,前述的递归划分采样技术的KD树结构构建相对复杂,每次新数据到来都需要从根节点开始重新构建,没有办法在各帧之间维持稳定;而经典的水塘采样(ReservoirSampling)能够从未知大小的数据中选取固定数量的样本点,并在帧切换时保持一定程度上的稳定性,和随机采样一样能保持相对密度,但同样存在随机采样会丢失低密度区域离群点的缺陷。
[0007]综上所述,目前渐进式场景下的散点图采样技术都各有局限性,尚没有一个被广泛采纳的标准解决方案。

技术实现思路

[0008]为了解决上述问题,本专利技术提出了一种基于金字塔的散点图采样方法及系统,将常用于图像处理的金字塔结构用于散点图采样,以解决过度绘制问题,通过融合数据密度图和视觉密度图来选取能同时保持好相对密度和异常值的效果采样点。
[0009]为了实现上述目的,本专利技术采用如下技术方案:
[0010]第一方面,本专利技术提供一种基于金字塔的散点图采样方法,包括:
[0011]将获取的样本数据的散点图转换为密度图;
[0012]基于密度图构建数据密度金字塔和视觉密度金字塔;
[0013]以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数,根据数据密度金字塔和视觉密度金字塔逐层计算样本分配图中各区域分配的样本数,得到最终样本分配图;
[0014]基于最终样本分配图选择样本点得到采样结果。
[0015]第二方面,本专利技术提供一种基于金字塔的散点图采样系统,包括:
[0016]转换模块,被配置为将获取的样本数据的散点图转换为密度图;
[0017]金字塔构建模块,被配置为基于密度图构建数据密度金字塔和视觉密度金字塔;
[0018]样本分配模块,被配置为以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数,根据数据密度金字塔和视觉密度金字塔逐层计算样本分配图中各区域分配的样本数,得到最终样本分配图;
[0019]采样模块,被配置为基于最终样本分配图选择样本点得到采样结果。
[0020]第三方面,本专利技术提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
[0021]第四方面,本专利技术提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
[0022]与现有技术相比,本专利技术的有益效果为:
[0023]本专利技术将常用于图像处理的金字塔结构用于散点图采样,以解决过度绘制问题,对于给定的散点图数据和有限的屏幕空间,通过融合数据密度图和视觉密度图,能够快速地选取同时保持好相对密度和异常值的数据子集,并且在渐进式和流处理场景下能够在新数据到来时进行保持帧间稳定性的增量式更新,以能够更好的利用散点图技术可视化大规模数据和流数据。
[0024]本专利技术采用的增量式更新策略在渐进式与流处理场景下能做到只进行有必要的更新,通过减少不必要的采样点变化来保持帧间稳定性,有助于用户观察和分析散点图包含的真实信息。
[0025]本专利技术预先将散点图转化为密度图,使得单次采样过程消耗的时间与输入数据大小完全无关,采样过程运行时间短,能够在0.1秒内处理2
10
×210
规模的密度图,满足交互式分析的实时处理需求。
[0026]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0027]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0028]图1是本专利技术实施例1提供的基于金字塔的散点图采样方法流程图;
[0029]图2(a)

2(b)是本专利技术实施例1提供的密度图转化过程示意图;其中,图2(a)为输入数据映射到屏幕空间上得到的散点图的部分示意,图2(b)为输出密度图的对应部分;
[0030]图3(a)

3(e)是本专利技术实施例1提供的结合数据密度与视觉密度的采样算法流程图;其中,图3(a)为输入数据对应的密度图与视觉密度图,图3(b)构建的数据密度金字塔和视觉密度金字塔,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于金字塔的散点图采样方法,其特征在于,包括:将获取的样本数据的散点图转换为密度图;基于密度图构建数据密度金字塔和视觉密度金字塔;以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数,根据数据密度金字塔和视觉密度金字塔逐层计算样本分配图中各区域分配的样本数,得到最终样本分配图;基于最终样本分配图选择样本点得到采样结果。2.如权利要求1所述的一种基于金字塔的散点图采样方法,其特征在于,基于密度图构建数据密度金字塔和视觉密度金字塔的过程包括:将密度图扩充为边长为2的幂次的正方形,密度图中新增位置密度设为零;将密度图中密度不为0的位置的视觉密度设为1,密度为0的位置的视觉密度设为0,以此得到视觉密度图;从底层开始逐层构建数据密度金字塔和视觉密度金字塔,每一层的边长是下一层的1/2,直到边长为1的顶层,每个位置的值是下一层对应的2
×
2区域的值的总和。3.如权利要求1所述的一种基于金字塔的散点图采样方法,其特征在于,计算样本分配图中各区域分配的样本数的过程包括:以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数,在该层的数据密度图和视觉密度图的约束下,将各位置的样本数分配给边长为2倍的下一层样本分配图的对应2
×
2区域;若当前层数小于阈值,则进行双目标分配;若大于阈值则根据数据密度排序后,按每个位置的视觉密度占金字塔上层位置的总视觉密度的比例进行分配;若当前样本分配图的边长大于等于4,则进行跨边界修复,重新确定各位置的样本数。4.如权利要求3所述的一种基于金字塔的散点图采样方法,其特征在于,所述双目标分配包括:若某位置与最高密度位置的数据密度之比小于阈值,则将该位置分类为低密度位置,否则为高密度位置;对高密度位置进行样本数分配,计算上层给出的样本总数乘以该位置与金字塔上层对应位置的视觉密度之比,将以此得到的样本数分配给最高密度位置;计算样本总数乘以该位置与最高密度位置的数据密度之比,将以此得到的样本数分配给其他位置;对低密度位置进行样本数分配,获取低密度位置要分配的样本数之和,根据每个区域视觉密度占低密度位置总体的视觉密度之比为每个区域分配相应的样本数。5.如权利要求3所述的一种基于金字塔的散点图采样方法,其特征在于,所述跨边界修复包括:设两个位置中,相对低密度的为l,高密度的为h,数据密度分别为D
l
,D
h
,视觉密度分别为V
l
,V
h
,分配...

【专利技术属性】
技术研发人员:汪云海陈昕
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1