当前位置: 首页 > 专利查询>山东大学专利>正文

基于递归划分的多类散点图采样方法、系统、存储介质及设备技术方案

技术编号:22057768 阅读:41 留言:0更新日期:2019-09-07 16:09
本公开提供了一种基于递归划分的多类散点图采样方法、系统、存储介质及设备,通过将接收多类散点图转换为多类密度图;根据多类密度图上各邻近区域的密度差异将空间递归,划分为KD树结构;基于KD树结构,从所有叶子节点出发回溯,找到能同时保持稀少类的点和相对类密度的节点,由该节点开始递归分配类标签,保证每类至少一点且类密度顺序与采样前一致,最终从每个叶子节点选取具有分配到的类标签的一个点,作为采样结果输出,能够快速地计算出同时忠实地保持相对数据密度和相对类密度,并显示主要离群点和稀少类的点的采样结果,有助于提升分析以多类散点图可视化的数据的效率。

Sampling Method, System, Storage Media and Equipment of Multiple Speckle Graphs Based on Recursive Partitioning

【技术实现步骤摘要】
基于递归划分的多类散点图采样方法、系统、存储介质及设备
本公开属于图像信息处理领域,具体涉及一种基于递归划分的多类散点图采样方法、系统、存储介质及设备。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。散点图(scatterplot)在回归分析中是指数据点在直角坐标系平面上的分布图,散点图通过将数据点编码为视觉标记(例如,点),可以有效地呈现变量,数据集群之间的相关性和离群点,以及数据中的其他模式。同时,通过基于类标签对视觉标记进行颜色编码,多类散点图在可视化带有类标签的数据方面并观察多个类间的相关性则是有效的。此外,很多时候,降维到2D空间的高维数据也是用散点图进行可视化的。综上,散点图现已被广泛用于可视化定量变量之间的关系。然而,散点图常常会面临过度绘制(也就是高密度区域视觉标记间的相互重合)的问题,人们已经提出了很多方法来减轻该问题,例如改变标记尺寸、颜色、透明度、位置、密度等参数或通过动画展现数据。具体专利技术人了解,现存的方法大体上能够被分成以下几种:外观优化:这类方法是缓解过度绘制的一种直观方法,例如,减少标记大小、改变标记形状、并使标记半透明。前两种策略适合处理中等情况的过度绘制,但不能处理标记已经非常小的情况,最后一种策略同样要面临重叠标记难以辨认的问题。因此,上述方法都具有一定的局限性。进行数据抖动:此类方法通过稍微移位重叠标记的位置来缓解过度绘制以显示它们。由于大的抖动可能会引入不存在的假模式,可能导致观察者的错误认知,具有很大的局限性,并且此类方法不能处理严重过度绘制的情况。进行密度估计:该类方法是一种散点图的替代方法,它将离散的散点图显示为颜色编码的密度图或一组轮廓线,以这种方式,可以更好地表征密集区域,但可能遗漏离群点和稀疏区域;而且,由于颜色混合,难以可视化的观察以颜色编码的多类密度场,特别是对于重叠区域,就更难实现了。采样优化,该类技术主要是通过优化采样过程来解决过度绘制的问题,主要包括随机采样、非均匀采样、蓝噪声采样等,随机采样能保留密集区域和相对密度差异,却很容易丢失离群点和稀疏区域;非均匀采样容易忽略不同密度区域的差异;蓝噪声采样导入特殊的局部模式,同时在原始数据点数非常多时处理速度较慢,而且在构建的密度场不好时会产生不合理的结果。综上所述,目前处理过度绘制问题的几种方式都各有局限性。
技术实现思路
本公开为了解决上述问题,提出了一种基于递归划分的多类散点图采样方法、系统、存储介质及设备,本公开通过对采样过程的优化,对于给定的多类散点图和屏幕空间,能够快速地计算出同时忠实地保持相对数据密度和相对类密度,并显示主要离群点和稀少类的点的采样结果,有助于提升分析以多类散点图可视化的数据的效率。根据一些实施例,本公开采用如下技术方案:一种基于递归划分的多类散点图采样方法,包括以下步骤:接收多类散点图,并将其转换为多类密度图;根据多类密度图上各邻近区域的密度差异将空间递归划分为KD树结构;基于KD树结构,从所有叶子节点出发回溯,找到能同时保持稀少类的点和相对类密度的节点,由该节点开始递归分配类标签,保证每类至少一点且类密度顺序与采样前一致,最终从每个叶子节点选取具有分配到的类标签的一个点,作为采样结果输出。作为可选的实施方案,多类散点图转化为多类密度图的具体过程包括:(1-1)按输入的网格大小将给定的屏幕空间划分为一系列等大小的网格;(1-2)将输入多类散点图映射到该屏幕空间;(1-3)统计落在每个网格中的每个类的散点个数,并将各类的点个数相加得到总点数,每个网格内各类点个数为各类密度,从网格位置到各类密度的映射即为多类密度图。作为可选的实施方案,递归划分为KD树结构的具体过程包括:(2-1)将覆盖整个密度图的区域作为根节点;(2-2)从根节点执行递归划分,确定各子树、叶子节点,构建KD树,直到所有的叶子节点都无法继续划分时,迭代停止。作为可选的实施方案,所述步骤(2-2)包括以下步骤:检查节点是否是叶子节点,如果节点不是叶子节点,则对其两个子节点调用同样的递归划分过程,根据父节点给当前节点的递归划分方式和两个子节点的采样率差值是否小于设定值同时决定是否给出进行进一步划分的方式;如果节点是叶子节点,在其内部含有点的网格数量大于1,并且满足父节点的递归划分方式或内部含有离群点这两个条件中的任何一个时,划分叶子节点为两个子节点并返回一个成功进行了划分的结果,否则返回一个没有划分的结果。作为更进一步的实施方案,在子节点划分完成后,将两子节点的子树的叶子数量相加得到当前节点子树的叶子数量;将是否有某个子节点成功进行了划分的结果回传给调用节点。作为更进一步的实施方案,节点的采样率为以该节点为根的子树中的叶子个数与该节点所覆盖的区域中所有网格的总密度之和的比值。作为更进一步的实施方案,若某节点的含有点的网格数量与该节点所覆盖的区域的网格总数的比值小于设定阈值,则认为该节点内部含有离群点。作为更进一步的实施方案,划分叶子节点为两个子节点的具体过程包括:将所有网格的位置用密度加权平均,求出该节点覆盖的区域的质心;在与x轴平行和与y轴平行的距质心最近的网格边界线中选择使将要生成的两个子节点的内部密度和之差最小的那一条作为划分线;按选中的划分线划分当前节点的密度图,分配给两个子节点,并更新当前节点的叶子数量。作为可选的实施方案,从所有叶子节点出发回溯,找到能同时保持稀少类的点和相对类密度的节点的具体过程包括:找到所有叶子节点,从每个叶子节点出发回溯到一个能同时保持稀少类的点和相对类密度的祖先节点;将在该节点求得的类标签数量用递归方式分配给其子树里的叶子节点;各个叶子节点根据分配到的类标签,在所有该类点中进行随机采样,选出一个点作为最终采样结果输出。作为更进一步的限定,每个叶子节点出发回溯到一个能同时保持稀少类的点和相对类密度的祖先节点的具体过程包括:从内部包含类数量超过1的叶子节点开始,回溯到包含叶子数量超过其中的类数量的祖先节点;对符合要求的祖先节点求一个类分配数组,其记录了每个类应该由几个叶子节点表示,继续回溯,找类分配数组的值与相对类密度最一致的节点。作为更进一步的限定,各节点求得的类标签数量用递归方式分配给其子树里的叶子节点的具体过程包括:首先选出其中类数量比较多的那个子节点,先向存在于这个子节点中却不存在于另一个子节点中的每个类至少分配一个叶子数量,剩下的数量使用轮盘赌选择法根据该子节点内部的各类密度值得出,得到类分配数组;用当前节点的类分配数组减去已分配好的节点的类分配数组,得到未分配好的节点的类分配数组;重复上述过程,直至分配到叶子节点。一种基于递归划分的多类散点图采样系统,包括:转换模块,被配置为接收多类散点图,并将其转换为多类密度图;KD树构建模块,被配置为根据多类密度图上各邻近区域的密度差异将空间递归,划分为KD树结构;选取模块,被配置为基于KD树结构,从所有叶子节点出发回溯,找到能同时保持稀少类的点和相对类密度的节点,由该节点开始递归分配类标签,保证每类至少一点且类密度顺序与采样前一致,最终从每个叶子节点选取具有分配到的类标签的一个点,作为采样结果输出。一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执本文档来自技高网
...

【技术保护点】
1.一种基于递归划分的多类散点图采样方法,其特征是:包括以下步骤:接收多类散点图,并将其转换为多类密度图;根据多类密度图上各邻近区域的密度差异将空间递归,划分为KD树结构;基于KD树结构,从所有叶子节点出发回溯,找到能同时保持稀少类的点和相对类密度的节点,由该节点开始递归分配类标签,保证每类至少一点且类密度顺序与采样前一致,最终从每个叶子节点选取具有分配到的类标签的一个点,作为采样结果输出。

【技术特征摘要】
1.一种基于递归划分的多类散点图采样方法,其特征是:包括以下步骤:接收多类散点图,并将其转换为多类密度图;根据多类密度图上各邻近区域的密度差异将空间递归,划分为KD树结构;基于KD树结构,从所有叶子节点出发回溯,找到能同时保持稀少类的点和相对类密度的节点,由该节点开始递归分配类标签,保证每类至少一点且类密度顺序与采样前一致,最终从每个叶子节点选取具有分配到的类标签的一个点,作为采样结果输出。2.如权利要求1所述的一种基于递归划分的多类散点图采样方法,其特征是:多类散点图转化为多类密度图的具体过程包括:(1-1)按输入的网格大小将给定的屏幕空间划分为一系列等大小的网格;(1-2)将输入多类散点图映射到该屏幕空间;(1-3)统计落在每个网格中的每个类的散点个数,并将各类的点个数相加得到总点数,每个网格内各类点个数为各类密度,从网格位置到各类密度的映射即为多类密度图。3.如权利要求1所述的一种基于递归划分的多类散点图采样方法,其特征是:递归划分为KD树结构的具体过程包括:(2-1)将覆盖整个密度图的区域作为根节点;(2-2)从根节点执行递归划分,确定各子树、叶子节点,构建KD树,直到所有的叶子节点都无法继续划分时,迭代停止;或,所述步骤(2-2)包括以下步骤:检查节点是否是叶子节点,如果节点不是叶子节点,则对其两个子节点调用同样的递归划分过程,根据父节点给当前节点的递归划分方式和两个子节点的采样率差值是否小于设定值同时决定是否给出进行进一步划分的方式;如果节点是叶子节点,在其内部含有点的网格数量大于1,并且满足父节点的递归划分方式或内部含有离群点这两个条件中的任何一个时,划分叶子节点为两个子节点并返回一个成功进行了划分的结果,否则返回一个没有划分的结果。4.如权利要求3所述的一种基于递归划分的多类散点图采样方法,其特征是:在子节点划分完成后,将两子节点的子树的叶子数量相加得到当前节点子树的叶子数量;将是否有某个子节点成功进行了划分的结果回传给调用节点;或,节点的采样率为以该节点为根的子树中的叶子个数与该节点所覆盖的区域中所有网格的总密度之和的比值;或,若某节点的含有点的网格数量与该节点所覆盖的区域的网格总数的比值小于设定阈值,则认为该节点内部含有离群点;或,划分叶子节点为两个子节点的具体过程包括:将所有网格的位置用密度加权平均,求出该节点覆盖的区域的质心;在与x轴平行和与y轴平行的距质心最近的网格边界线中选择使将要生成的两个子节点的内部密度和之差最小的那一条作为划分线;按选中的划...

【专利技术属性】
技术研发人员:汪云海陈昕葛彤陈宝权
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1