一种基于金字塔的散点图采样方法及系统技术方案

技术编号：30408222 阅读：44 留言：0更新日期：2021-10-20 11:19

本发明专利技术公开了一种基于金字塔的散点图采样方法及系统，包括：将获取的样本数据的散点图转换为密度图；基于密度图构建数据密度金字塔和视觉密度金字塔；以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数，根据数据密度金字塔和视觉密度金字塔逐层计算样本分配图中各区域分配的样本数，得到最终样本分配图；基于最终样本分配图选择样本点得到采样结果。将常用于图像处理的金字塔结构用于散点图采样，以解决过度绘制问题，通过融合数据密度图和视觉密度图来选取能同时保持好相对密度和异常值的效果采样点。对密度和异常值的效果采样点。对密度和异常值的效果采样点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于金字塔的散点图采样方法及系统

[0001]本专利技术涉及散点图采样
，特别是涉及一种基于金字塔的散点图采样方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]可视化系统具有低延迟，以保持用户的注意力，从而支持有效的数据探索的作用。随着数据规模的不断增长，渐进式可视化已成为控制延迟的一种有希望的范例。通过将数据划分为多个块，可以在有限的带宽通道上每次传输单个数据块并逐步呈现可视化效果，从而使分析人员能够以受控的延迟体验探索中间结果，从而可以确保大数据可视化的计算可伸缩性。这种范式同样适用于流数据可视化，其中数据随着时间不断到来，而可视化会展示一个定长的滑动时间窗口内部的数据。
[0004]基于点的可视化通常用于显示各种形式的数据，例如双变量数据，降维数据和地理数据，为了方便起见，将它们统称为散点图。但是，这样的散点图在数据量过大时可能无法有效地工作，因为会受到过度绘制的困扰，即随着数据密度的增加，重叠的可视标记的数量也会增加，降低可视化的可读性。此外，具有不均匀分布的小数据也存在该问题。而基于密度的方法(如KDE)能够有效解决该问题，可以有效地揭示高密度区域中的数据模式。但是，这类方法有可能导致低密度区域中的数据模式(如离群点)不可见。
[0005]采样技术是一种广泛运用的解决方案，能够选取适用于展示的数据子集，常见目标为保持相对数据密度的准确性与低密度区域的异常值。最简单的随机采样以统一的方式对待所有数据点...

【技术保护点】

【技术特征摘要】
1.一种基于金字塔的散点图采样方法，其特征在于，包括：将获取的样本数据的散点图转换为密度图；基于密度图构建数据密度金字塔和视觉密度金字塔；以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数，根据数据密度金字塔和视觉密度金字塔逐层计算样本分配图中各区域分配的样本数，得到最终样本分配图；基于最终样本分配图选择样本点得到采样结果。2.如权利要求1所述的一种基于金字塔的散点图采样方法，其特征在于，基于密度图构建数据密度金字塔和视觉密度金字塔的过程包括：将密度图扩充为边长为2的幂次的正方形，密度图中新增位置密度设为零；将密度图中密度不为0的位置的视觉密度设为1，密度为0的位置的视觉密度设为0，以此得到视觉密度图；从底层开始逐层构建数据密度金字塔和视觉密度金字塔，每一层的边长是下一层的1/2，直到边长为1的顶层，每个位置的值是下一层对应的2
×
2区域的值的总和。3.如权利要求1所述的一种基于金字塔的散点图采样方法，其特征在于，计算样本分配图中各区域分配的样本数的过程包括：以视觉密度金字塔顶层值为样本分配图中对应区域分配的初始样本数，在该层的数据密度图和视觉密度图的约束下，将各位置的样本数分配给边长为2倍的下一层样本分配图的对应2
×
2区域；若当前层数小于阈值，则进行双目标分配；若大于阈值则根据数据密度排序后，按每个位置的视觉密度占金字塔上层位置的总视觉密度的比例进行分配；若当前样本分配图的边长大于等于4，则进行跨边界修复，重新确定各位置的样本数。4.如权利要求3所述的一种基于金字塔的散点图采样方法，其特征在于，所述双目标分配包括：若某位置与最高密度位置的数据密度之比小于阈值，则将该位置分类为低密度位置，否则为高密度位置；对高密度位置进行样本数分配，计算上层给出的样本总数乘以该位置与金字塔上层对应位置的视觉密度之比，将以此得到的样本数分配给最高密度位置；计算样本总数乘以该位置与最高密度位置的数据密度之比，将以此得到的样本数分配给其他位置；对低密度位置进行样本数分配，获取低密度位置要分配的样本数之和，根据每个区域视觉密度占低密度位置总体的视觉密度之比为每个区域分配相应的样本数。5.如权利要求3所述的一种基于金字塔的散点图采样方法，其特征在于，所述跨边界修复包括：设两个位置中，相对低密度的为l，高密度的为h，数据密度分别为D
l
，D
h
，视觉密度分别为V
l
，V
h
，分配...

【专利技术属性】
技术研发人员：汪云海，陈昕，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人