当前位置: 首页 > 专利查询>北京大学专利>正文

一种高维数据子空间可视化探索分析方法和系统技术方案

技术编号:32318110 阅读:29 留言:0更新日期:2022-02-16 18:23
本发明专利技术公开了一种高维数据子空间可视化探索分析方法和系统,方法包括:S100、从高维数据集中搜索有价值的子空间并提取其特征,特征包括子空间相似度、子空间聚类、数据模式、维度模式和代表性子空间;S200、基于提取的特征,构建子空间地图,包括确定锚点位置和子空间遍历顺序,通过网格平铺的方式确定布局,加入额外地图隐喻;S300、绘制子空间地图及其他辅助视图,通过与用户交互完成子空间探索。本发明专利技术以地图隐喻的可视化形式支持用户高效地完成高维数据子空间的探索分析。维数据子空间的探索分析。维数据子空间的探索分析。

【技术实现步骤摘要】
一种高维数据子空间可视化探索分析方法和系统


[0001]本专利技术涉及可视化与人机交互领域,具体涉及一种高维数据子空间可视化探索分析方法和系统。

技术介绍

[0002]高维数据作为记录抽象信息的重要数据类型,在日常生活中十分常见。它的数据样本拥有多个属性,比如包含多种指标的环境监测数据,包含多种信息的个人档案等。子空间指高维空间中的任意低维空间。为避免不相关维度和冗余维度的干扰以及维数灾难的影响,分析高维数据时选择合适的子空间是十分必要的。子空间分析是高维数据可视化中的重要内容。然而,子空间分析面临探索空间巨大、维度和数据模式之间相互作用复杂和缺乏探索方向等方面的问题。虽然,研究人员提出各种算法来找出包含数据聚类的子空间,但是,这些算法的输出很容易产生冗余,需要借助可视化来进一步组织。此外,它们也没有提供维度选择的指导。也有一些方法旨在指导用户进行子空间探索。然而,它们要么依赖于低效的人工规划,要么只适用于二维子空间。总的来说,虽然子空间分析已经被广泛地探索,但以上三个问题仍未得到很好的解决。

技术实现思路

[0003]针对现有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种高维数据子空间可视化探索分析方法,其特征在于,包括:S100、从高维数据集中搜索有价值的子空间并提取其特征,所述特征包括子空间相似度、子空间聚类、数据模式、维度模式和代表性子空间;S200、基于提取的特征,构建子空间地图,包括确定锚点位置和子空间遍历顺序,通过网格平铺的方式确定布局,加入额外地图隐喻;S300、绘制所述子空间地图及其他辅助视图,通过与用户交互完成子空间探索。2.根据权利要求1所述的方法,其特征在于,S100包括:基于子空间聚类算法,将数据项具有非均匀距离分布模式的子空间作为有价值的子空间搜索出来。3.根据权利要求2所述的方法,其特征在于,S100包括:(1)提取子空间相似度:计算搜索得到的每个子空间中的每个数据项的k

NN列表,将两个子空间在某个数据项对应的k

NN列表之间的相似性作为这两个子空间在该个数据项上的相似性,将这两个子空间在所有数据项上的相似性平均得到这两个子空间的相似度;(2)提取子空间聚类:通过DBSCAN聚类算法,对搜索得到的每个子空间进行两层聚类,第一层中的聚类作为第二层的算法输入;(3)提取数据模式:评估在同一聚类的所有子空间中具有相似的k

NN列表的数据项,作为聚类的数据模式;(4)提取维度模式:计算每个维度在同一聚类的所有子空间中出现的次数,将在某一聚类中出现的次数达到对应高预设次数的维度以及低于对应低预设次数的维度作为该聚类的维度模式,将在某一子空间的邻居子空间中维度出现的次数作为该子空间的维度模式;(5)提取代表性子空间:选择与其他成员子空间有最高平均相似度的子空间作为代表性子空间。4.根据权利要求3所述的方法,其特征在于,S200中,确定锚点位置和子空间遍历顺序,包括:(1)确定锚点位置:不同国家和岛屿的合理位置通过绘制所有子空间的降维投影获得,对于每个国家,将它的首都视为锚点,对于每个岛屿,将它本身视为锚点,并确定其在六边形网格上的位置;(2)确定子空间遍历顺序:在第一层确定所有国家的首都和岛屿的顺序,在第二层确定同一国家的所有城市的顺序,即建立一个空列表,并将与列表中其他城市平均不相似度最小的城市加入到列表中,一直到同一国家的所有城市都被包括在内即止,不同的国家分别进行遍历。5.根据权利要求4所述的方法,其特征在于,S200中,通过网格平铺的方式确定布局,包括:(1)根据...

【专利技术属性】
技术研发人员:袁晓如赖楚凡李金城
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1