一种基于维度投影的多维数据相关性可视分析方法及系统技术方案

技术编号:17939765 阅读:95 留言:0更新日期:2018-05-15 20:09
本发明专利技术公布了一种基于维度投影的多维数据相关性可视分析方法、系统及应用,属于数据分析与可视化技术领域。包括:建立KNN‑Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;通过对数据维度进行投影展示数据维度之间相关性的可视化方法,将数据维度间相关性进行可视化。多维数据相关性可视分析系统包括:数据预处理模块、维度间相关性计算模块、维度间相关性的矩阵热图可视化模块、多维属性MDS投影模块、多视图可视化与交互模块;并应用于农药残留数据集的可视展示和分析。

A visual analysis method and system for multidimensional data correlation based on dimension projection

The invention discloses a visual analysis method, system and application of multi-dimensional data correlation based on dimension projection, and belongs to the field of data analysis and visualization technology. It includes: establishing the KNN Pearson measure method to calculate the dimension of correlation between dimensions of multidimensional dataset, formally describing and operating multidimensional data sets through matrix, then quantificationally calculating the correlation between dimensions of data sets, and getting dimension correlation matrix R of multidimensional data, and projecting data by projection of data dimension. A visualization method for correlation between dimensions is used to visualize the correlation among data dimensions. The multidimensional data correlation visual analysis system includes data preprocessing module, interdimensional correlation calculation module, dimension correlation matrix thermal map visualization module, multidimensional attribute MDS projection module, multi view visualization and interactive module, and can be applied to visual display and analysis of pesticide residue data sets.

【技术实现步骤摘要】
一种基于维度投影的多维数据相关性可视分析方法及系统
本专利技术涉及数据分析与可视化
,尤其涉及一种基于维度投影的多维数据相关性可视分析方法、系统及应用。
技术介绍
农药残留是导致食品安全问题的主要原因之一,每年各国政府都会对食品中的农药残留进行多次抽检和侦测,从而得到具有大量数据的农残侦测数据集,这个数据集具有多维属性,且各属性之间具有一定的关联,如何对这些数据进行有效的分析,尤其是相关性分析,找出各个属性之间的潜在关联,从而制定有效的监管措施,是一个亟待解决的问题。当前对高维数据集中各属性间相关性的可视化技术主要涉及两种方法,它们分别为空间映射法和降维方法。空间映射法是将数据从抽象的高维空间映射到可视的2D空间,具体包括散点图矩阵、平行坐标和表格透镜等,但这类技术只能处理低于20维的数据。降维方法是通过降维从高维数据中提取有效信息,便于可视化。这类方法主要包括主成分分析、多维尺度分析等方法。然而这类方法的问题是用户对降维过程的控制很少,且降维后,原始维度信息会有所丢失。由此可以看出,对高维数据相关性的挖掘方法和可视化技术也都面临着诸多挑战。因此,如何实现普通用户对多维数据的方便操作、并且实现对多维数据的关联分析成为目前亟待解决的技术问题。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于维度投影的多维数据相关性可视分析方法与系统。本专利技术提出了一种基于维度投影的多维数据相关性可视分析方法,方法的核心包括了量化多维数据集中维度间相关性大小的度量方法KNN-Pearson和对数据维度进行投影展示数据维度之间相关性的可视化方法。该方法首先提出了一个量化多维数据集中维度间相关性大小的度量方法KNN-Pearson,通过矩阵将多维数据集进行形式化描述和操作,在此基础上对数据集维度间相关性进行定量计算。该度量方法通过数据集在某维度中某数据值处的密度定量地表示某维度对聚类的贡献度,并将其作为计算元素,通过皮尔逊相关系数计算各维度间的相关性大小,定量地表示各维度之间的相关程度。然后基于KNN-Pearson算法得到的维度间相关性大小,应用多维尺度算法(Multi-dimensionalScaling,MDS)对维度进行投影,用投影散点图和矩阵热图展示维度之间的相关性,用投影矩阵和平行坐标展示数据的分布态势和聚类特征,允许用户通过维度选择构造其感兴趣的子空间,在子空间中交互地分析数据、探索规律。根据上述基于维度投影的多维数据相关性可视分析方法,本专利技术还提供了一个基于维度投影的多维数据相关性可视分析系统,通过数据筛选、维度选择、尺度缩放以及多视图联动等交互手段,以实现对具有多维数据集中的多维属性间的相关性进行探索与分析。本专利技术提供的技术方案如下:一种基于维度投影的多维数据相关性可视分析方法,包括:第一步,建立一个量化多维数据集中维度间相关性大小的度量方法KNN-Pearson,通过矩阵将多维数据集进行形式化描述和操作,在此基础上对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R。本专利技术对采用Pearson相关系数算法计算维度间相关性大小的方法进行了改进,提出了KNN-Pearson度量方法来计算维度间相关性大小,该方法包括如下步骤:A.数据预处理,构造原始数据集的特征向量矩阵X,具体包括如下步骤:A1.根据需求从原始数据集中提取样本数据记录构成新的数据集DataSet,DataSet中数据记录的条数为n条,记Di为DataSet中第i条数据记录,则D=(D1,D2,…,Dn)T表示DataSet中的n条记录。每条数据记录有m个属性,即每条记录可以表示为Di=(d1,d2,…dj,…,dm),其中dj(j=1,2,…,m)表示第j个属性的取值;A2.以DataSet中的每一条数据记录作为一个数据点插入矩阵行向量,每一个属性作为一个维度插入矩阵列向量,构建的特征向量矩阵X如下:其中i∈{1,2,…,n},j∈{1,2,…,m},矩阵中的每一个点xij表示第i个维度中第j个数据点。B.通过KNN-Pearson方法计算矩阵X中两两维度间的相关性大小值,具体包括如下步骤;B1.计算数据在维度dj上点xi位置处的密度:公式1中等式左端的ρ(xi,dj)描述的是数据在维度dj上点xi位置处的密度,即矩阵X中的元素xij处的密度,等式右端中KNN(K-NearestNeighbor)是指k最近邻,即在维度dj上距离点xi最近的k个点。在公式中KNN(xi,dj)指维度dj上距离点xi最近的k个点,k的数值一般由用户自己根据实际情况给定,max(KNN(xi,dj))指KNN(xi,dj)中维度坐标值最大的点,min(KNN(xi,dj))指KNN(xi,dj)中维度坐标最小的点。ε为阈值,一般的定义其中n为数据集中数据记录的条数。比较max(KNN(xi,dj))-min(KNN(xi,dj))和阈值ε的大小,取较大的值作为分母,相应的k的数值减1作为分子,将得到的比值作为维度dj上点xi位置处的密度.B2.计算数据在维度dj上所有点的密度的平均值:通过步骤B1中的公式1将向量矩阵中的每个元素的密度计算出来得到密度矩阵如下,对于密度矩阵中的每一列元素,应用公式2对其求平均值得到每个维度dj上的平均密度,记作最终得到平均密度向量B3.计算两维度间的相关性大小:结合步骤B2中得到的密度矩阵P和平均密度向量应用公式3计算得到两两维度间相关性的大小,并将其记录在如下矩阵中:矩阵R中每个元素r(di,dj)(i∈{1,2,…,m},j∈{1,2,…,m})表示维度di和维度dj间的相关系数,其中相关系数的取值范围在-1到1之间,正值表示两维度间存在正相关关系,负值表示两维度间存在负相关关系,且绝对值越接近1表示两维度间相关性越强。C.将维度间相关性大小记录到相关性矩阵中并输出,即步骤B中得到的相关性矩阵R.第二步,通过对数据维度进行投影展示数据维度之间相关性的可视化方法,将数据维度间相关性进行可视化;具体地,基于得到的相关性矩阵R,应用MDS算法对维度进行投影,每一个投影点表示一个维度,投影点之间的相对距离表示维度间相关性的大小,距离越远表示相关性越小,反之表示相关性越大。基于上述基于维度投影的多维数据相关性可视分析方法,本专利技术还实现了一个基于维度投影的多维数据相关性可视分析系统,包括:数据预处理模块、维度间相关性计算模块、维度间相关性的矩阵热图可视化模块、多维属性MDS投影模块、多图可视化与交互模块;数据预处理模块用于构造原始数据集的特征向量矩阵;维度间相关性计算模块用于使用KNN-Pearson算法计算维度间相关性;维度间相关性的矩阵热图可视化模块用于采用矩阵热图表示维度相关系数矩阵,将维度间相关性进行可视化;多维属性MDS投影模块通过使用多维尺度算法将数据集的多维属性投影到二维平面坐标中,根据投影点之间的相对位置表示维度间相关性,投影点之间的相对位置越近表示投影点代表的维度间相关性越强;多图可视化与交互模块通过地图、字云、柱形图和环形饼图等可视化方法,采用用户交互手段,提供自由选择感兴趣数据的方式,实现用户采用多图可视化与交互方式对数据集进行分析与研究。相关性分析是指对两个或多个具备相关性的变量元素进本文档来自技高网...
一种基于维度投影的多维数据相关性可视分析方法及系统

【技术保护点】
一种基于维度投影的多维数据相关性可视分析方法,包括如下步骤:第一步,建立KNN‑Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;包括如下步骤:A.数据预处理,构造原始数据集的特征向量矩阵X,包括步骤A1‑A2:A1.从原始数据集中提取样本数据记录构成新的数据集,记作DataSet,DataSet中数据记录的条数为n条,记Di为DataSet中第i条数据记录,则D=(D1,D2,…,Dn)

【技术特征摘要】
1.一种基于维度投影的多维数据相关性可视分析方法,包括如下步骤:第一步,建立KNN-Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;包括如下步骤:A.数据预处理,构造原始数据集的特征向量矩阵X,包括步骤A1-A2:A1.从原始数据集中提取样本数据记录构成新的数据集,记作DataSet,DataSet中数据记录的条数为n条,记Di为DataSet中第i条数据记录,则D=(D1,D2,…,Dn)T表示DataSet中的n条记录;每条数据记录有m个属性,即每条记录可表示为Di=(d1,d2,…dj,…,dm),其中dj(j=1,2,…,m)表示第j个属性的取值;A2.以DataSet中的每一条数据记录作为一个数据点插入矩阵行向量,每一个属性作为一个维度插入矩阵列向量,构建的特征向量矩阵X如下:其中,i∈{1,2,…,n},j∈{1,2,…,m},矩阵中的每一个点xij表示第i个维度中第j个数据点;B.通过KNN-Pearson度量方法计算矩阵X中两两维度间的相关性大小值,记录在相关性矩阵R中;包括步骤B1-B3:B1.通过公式1计算数据在维度dj上点xi位置处的密度:公式1中,ρ(xi,dj)是数据在维度dj上点xi位置处的密度,即矩阵X中的元素xij处的密度;KNN(K-NearestNeighbor)是指k最近邻,即在维度dj上距离点xi最近的k个点;KNN(xi,dj)指维度dj上距离点xi最近的k个点;max(KNN(xi,dj))指KNN(xi,dj)中维度坐标值最大的点;min(KNN(xi,dj))指KNN(xi,dj)中维度坐标最小的点;ε为阈值,一般其中n为数据集中数据记录的条数;通过公式1计算向量矩阵中的每个元素的密度,得到密度矩阵P表示如下:

【专利技术属性】
技术研发人员:陈谊张聪章蓉
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1