当前位置: 首页 > 专利查询>北京大学专利>正文

一种高维数据子空间可视化探索分析方法和系统技术方案

技术编号:32318110 阅读:22 留言:0更新日期:2022-02-16 18:23
本发明专利技术公开了一种高维数据子空间可视化探索分析方法和系统,方法包括:S100、从高维数据集中搜索有价值的子空间并提取其特征,特征包括子空间相似度、子空间聚类、数据模式、维度模式和代表性子空间;S200、基于提取的特征,构建子空间地图,包括确定锚点位置和子空间遍历顺序,通过网格平铺的方式确定布局,加入额外地图隐喻;S300、绘制子空间地图及其他辅助视图,通过与用户交互完成子空间探索。本发明专利技术以地图隐喻的可视化形式支持用户高效地完成高维数据子空间的探索分析。维数据子空间的探索分析。维数据子空间的探索分析。

【技术实现步骤摘要】
一种高维数据子空间可视化探索分析方法和系统


[0001]本专利技术涉及可视化与人机交互领域,具体涉及一种高维数据子空间可视化探索分析方法和系统。

技术介绍

[0002]高维数据作为记录抽象信息的重要数据类型,在日常生活中十分常见。它的数据样本拥有多个属性,比如包含多种指标的环境监测数据,包含多种信息的个人档案等。子空间指高维空间中的任意低维空间。为避免不相关维度和冗余维度的干扰以及维数灾难的影响,分析高维数据时选择合适的子空间是十分必要的。子空间分析是高维数据可视化中的重要内容。然而,子空间分析面临探索空间巨大、维度和数据模式之间相互作用复杂和缺乏探索方向等方面的问题。虽然,研究人员提出各种算法来找出包含数据聚类的子空间,但是,这些算法的输出很容易产生冗余,需要借助可视化来进一步组织。此外,它们也没有提供维度选择的指导。也有一些方法旨在指导用户进行子空间探索。然而,它们要么依赖于低效的人工规划,要么只适用于二维子空间。总的来说,虽然子空间分析已经被广泛地探索,但以上三个问题仍未得到很好的解决。

技术实现思路

[0003]针对现有技术中存在的缺陷,本专利技术的目的在于提供一种高维数据子空间可视化探索分析方法和系统,以地图隐喻的可视化形式支持用户高效地完成高维数据子空间的探索分析。
[0004]为实现上述目的,本专利技术采用的技术方案如下:
[0005]一种高维数据子空间可视化探索分析方法,包括:
[0006]S100、从高维数据集中搜索有价值的子空间并提取其特征,所述特征包括子空间相似度、子空间聚类、数据模式、维度模式和代表性子空间;
[0007]S200、基于提取的特征,构建子空间地图,包括确定锚点位置和子空间遍历顺序,通过网格平铺的方式确定布局,加入额外地图隐喻;
[0008]S300、绘制所述子空间地图及其他辅助视图,通过与用户交互完成子空间探索。
[0009]进一步,如上所述的方法,S100包括:
[0010]基于子空间聚类算法,将数据项具有非均匀距离分布模式的子空间作为有价值的子空间搜索出来。
[0011]进一步,如上所述的方法,S100包括:
[0012](1)提取子空间相似度:计算搜索得到的每个子空间中的每个数据项的k

NN列表,将两个子空间在某个数据项对应的k

NN列表之间的相似性作为这两个子空间在该个数据项上的相似性,将这两个子空间在所有数据项上的相似性平均得到这两个子空间的相似度;
[0013](2)提取子空间聚类:通过DBSCAN聚类算法,对搜索得到的每个子空间进行两层聚
类,第一层中的聚类作为第二层的算法输入;
[0014](3)提取数据模式:评估在同一聚类的所有子空间中具有相似的k

NN列表的数据项,作为聚类的数据模式;
[0015](4)提取维度模式:计算每个维度在同一聚类的所有子空间中出现的次数,将在某一聚类中出现的次数达到对应高预设次数的维度以及低于对应低预设次数的维度作为该聚类的维度模式,将在某一子空间的邻居子空间中维度出现的次数作为该子空间的维度模式;
[0016](5)提取代表性子空间:选择与其他成员子空间有最高平均相似度的子空间作为代表性子空间。
[0017]进一步,如上所述的方法,S200中,确定锚点位置和子空间遍历顺序,包括:
[0018](1)确定锚点位置:不同国家和岛屿的合理位置通过绘制所有子空间的降维投影获得,对于每个国家,将它的首都视为锚点,对于每个岛屿,将它本身视为锚点,并确定其在六边形网格上的位置;
[0019](2)确定子空间遍历顺序:在第一层确定所有国家的首都和岛屿的顺序,在第二层确定同一国家的所有城市的顺序,即建立一个空列表,并将与列表中其他城市平均不相似度最小的城市加入到列表中,一直到同一国家的所有城市都被包括在内即止,不同的国家分别进行遍历。
[0020]进一步,如上所述的方法,S200中,通过网格平铺的方式确定布局,包括:
[0021](1)根据确定的锚点位置放置完锚点后,根据确定的子空间遍历顺序放置同一国家的各个城市,即建立一个位置队列,将每个传入所述六边形网格的子空间使用该位置队列中的第一个网格来容纳它,并不断更新队列,在一个网格被使用后,按顺时针顺序将符合预定条件的相邻网格加入队列中,所述预定条件包括没有被其他子空间占据且不是禁用网格;
[0022](2)若两个相邻的子空间属于同一聚类,则更新当前位置队列,否则清空当前位置队列,并为新聚类建立一个新的位置队列;
[0023](3)在确定所有国家和岛屿的布局之后,通过缩小它们之间的间隙使布局更加紧凑,将剩余的网格居中放大,以填满整个视图空间,通过颜色反映子空间相似度。
[0024]进一步,如上所述的方法,S200中,加入额外地图隐喻,包括:
[0025]每个聚类的代表性子空间被显示为首都或省会,对于每个城市/地区,其自然因素是维度模式,其景观是数据模式,在用户选择了起点和终点城市后,通过计算途经城市不相似度最小的路线得出对应的陆地和海上路线,通过最小生成树算法使路线网络更加简洁。
[0026]进一步,如上所述的方法,S300包括:
[0027]基于可视化的工具包D3绘制所述子空间地图及其他辅助视图,提供子空间列表视图和地图细节视图来辅助用户完成探索分析,子空间列表视图用于显示子空间的维度信息,地图细节视图用于显示子空间的维度模式和数据模式;在国家或者省份层面,地图细节视图用于显示聚类的数据模式和维度模式,在城市层面,地图细节视图用于显示所选子空间的数据模式和维度模式。
[0028]一种高维数据子空间可视化探索分析系统,包括:
[0029]提取模块,用于从高维数据集中搜索有价值的子空间并提取其特征,所述特征包
括子空间相似度、子空间聚类、数据模式、维度模式和代表性子空间;
[0030]构建模块,用于基于提取的特征,构建子空间地图,包括确定锚点位置和子空间遍历顺序,通过网格平铺的方式确定布局,加入额外地图隐喻;
[0031]绘制模块,用于绘制所述子空间地图及其他辅助视图,通过与用户交互完成子空间探索。
[0032]一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述的一种高维数据子空间可视化探索分析方法。
[0033]一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的一种高维数据子空间可视化探索分析方法。
[0034]本专利技术的有益效果在于:本专利技术以地图隐喻的可视化形式支持用户高效地完成高维数据子空间的探索分析,提供探索空间的概况,帮助用户了解子空间之间的关系,建立他们的心理地图;揭示维度和数据模式之间的相互作用,为维度决策提供指导;引导用户浏览探索空间,使用户能在短时间内了解有代表性的子空间及其差异。
附图说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高维数据子空间可视化探索分析方法,其特征在于,包括:S100、从高维数据集中搜索有价值的子空间并提取其特征,所述特征包括子空间相似度、子空间聚类、数据模式、维度模式和代表性子空间;S200、基于提取的特征,构建子空间地图,包括确定锚点位置和子空间遍历顺序,通过网格平铺的方式确定布局,加入额外地图隐喻;S300、绘制所述子空间地图及其他辅助视图,通过与用户交互完成子空间探索。2.根据权利要求1所述的方法,其特征在于,S100包括:基于子空间聚类算法,将数据项具有非均匀距离分布模式的子空间作为有价值的子空间搜索出来。3.根据权利要求2所述的方法,其特征在于,S100包括:(1)提取子空间相似度:计算搜索得到的每个子空间中的每个数据项的k

NN列表,将两个子空间在某个数据项对应的k

NN列表之间的相似性作为这两个子空间在该个数据项上的相似性,将这两个子空间在所有数据项上的相似性平均得到这两个子空间的相似度;(2)提取子空间聚类:通过DBSCAN聚类算法,对搜索得到的每个子空间进行两层聚类,第一层中的聚类作为第二层的算法输入;(3)提取数据模式:评估在同一聚类的所有子空间中具有相似的k

NN列表的数据项,作为聚类的数据模式;(4)提取维度模式:计算每个维度在同一聚类的所有子空间中出现的次数,将在某一聚类中出现的次数达到对应高预设次数的维度以及低于对应低预设次数的维度作为该聚类的维度模式,将在某一子空间的邻居子空间中维度出现的次数作为该子空间的维度模式;(5)提取代表性子空间:选择与其他成员子空间有最高平均相似度的子空间作为代表性子空间。4.根据权利要求3所述的方法,其特征在于,S200中,确定锚点位置和子空间遍历顺序,包括:(1)确定锚点位置:不同国家和岛屿的合理位置通过绘制所有子空间的降维投影获得,对于每个国家,将它的首都视为锚点,对于每个岛屿,将它本身视为锚点,并确定其在六边形网格上的位置;(2)确定子空间遍历顺序:在第一层确定所有国家的首都和岛屿的顺序,在第二层确定同一国家的所有城市的顺序,即建立一个空列表,并将与列表中其他城市平均不相似度最小的城市加入到列表中,一直到同一国家的所有城市都被包括在内即止,不同的国家分别进行遍历。5.根据权利要求4所述的方法,其特征在于,S200中,通过网格平铺的方式确定布局,包括:(1)根据...

【专利技术属性】
技术研发人员:袁晓如赖楚凡李金城
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1