The invention discloses a visual analysis method, system and application of multi-dimensional data correlation based on dimension projection, and belongs to the field of data analysis and visualization technology. It includes: establishing the KNN Pearson measure method to calculate the dimension of correlation between dimensions of multidimensional dataset, formally describing and operating multidimensional data sets through matrix, then quantificationally calculating the correlation between dimensions of data sets, and getting dimension correlation matrix R of multidimensional data, and projecting data by projection of data dimension. A visualization method for correlation between dimensions is used to visualize the correlation among data dimensions. The multidimensional data correlation visual analysis system includes data preprocessing module, interdimensional correlation calculation module, dimension correlation matrix thermal map visualization module, multidimensional attribute MDS projection module, multi view visualization and interactive module, and can be applied to visual display and analysis of pesticide residue data sets.
【技术实现步骤摘要】
一种基于维度投影的多维数据相关性可视分析方法及系统
本专利技术涉及数据分析与可视化
,尤其涉及一种基于维度投影的多维数据相关性可视分析方法、系统及应用。
技术介绍
农药残留是导致食品安全问题的主要原因之一,每年各国政府都会对食品中的农药残留进行多次抽检和侦测,从而得到具有大量数据的农残侦测数据集,这个数据集具有多维属性,且各属性之间具有一定的关联,如何对这些数据进行有效的分析,尤其是相关性分析,找出各个属性之间的潜在关联,从而制定有效的监管措施,是一个亟待解决的问题。当前对高维数据集中各属性间相关性的可视化技术主要涉及两种方法,它们分别为空间映射法和降维方法。空间映射法是将数据从抽象的高维空间映射到可视的2D空间,具体包括散点图矩阵、平行坐标和表格透镜等,但这类技术只能处理低于20维的数据。降维方法是通过降维从高维数据中提取有效信息,便于可视化。这类方法主要包括主成分分析、多维尺度分析等方法。然而这类方法的问题是用户对降维过程的控制很少,且降维后,原始维度信息会有所丢失。由此可以看出,对高维数据相关性的挖掘方法和可视化技术也都面临着诸多挑战。因此,如何实现普通用户对多维数据的方便操作、并且实现对多维数据的关联分析成为目前亟待解决的技术问题。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于维度投影的多维数据相关性可视分析方法与系统。本专利技术提出了一种基于维度投影的多维数据相关性可视分析方法,方法的核心包括了量化多维数据集中维度间相关性大小的度量方法KNN-Pearson和对数据维度进行投影展示数据维度之间相关性的可视化方法。该方法首先提 ...
【技术保护点】
一种基于维度投影的多维数据相关性可视分析方法,包括如下步骤:第一步,建立KNN‑Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;包括如下步骤:A.数据预处理,构造原始数据集的特征向量矩阵X,包括步骤A1‑A2:A1.从原始数据集中提取样本数据记录构成新的数据集,记作DataSet,DataSet中数据记录的条数为n条,记Di为DataSet中第i条数据记录,则D=(D1,D2,…,Dn)
【技术特征摘要】
1.一种基于维度投影的多维数据相关性可视分析方法,包括如下步骤:第一步,建立KNN-Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;包括如下步骤:A.数据预处理,构造原始数据集的特征向量矩阵X,包括步骤A1-A2:A1.从原始数据集中提取样本数据记录构成新的数据集,记作DataSet,DataSet中数据记录的条数为n条,记Di为DataSet中第i条数据记录,则D=(D1,D2,…,Dn)T表示DataSet中的n条记录;每条数据记录有m个属性,即每条记录可表示为Di=(d1,d2,…dj,…,dm),其中dj(j=1,2,…,m)表示第j个属性的取值;A2.以DataSet中的每一条数据记录作为一个数据点插入矩阵行向量,每一个属性作为一个维度插入矩阵列向量,构建的特征向量矩阵X如下:其中,i∈{1,2,…,n},j∈{1,2,…,m},矩阵中的每一个点xij表示第i个维度中第j个数据点;B.通过KNN-Pearson度量方法计算矩阵X中两两维度间的相关性大小值,记录在相关性矩阵R中;包括步骤B1-B3:B1.通过公式1计算数据在维度dj上点xi位置处的密度:公式1中,ρ(xi,dj)是数据在维度dj上点xi位置处的密度,即矩阵X中的元素xij处的密度;KNN(K-NearestNeighbor)是指k最近邻,即在维度dj上距离点xi最近的k个点;KNN(xi,dj)指维度dj上距离点xi最近的k个点;max(KNN(xi,dj))指KNN(xi,dj)中维度坐标值最大的点;min(KNN(xi,dj))指KNN(xi,dj)中维度坐标最小的点;ε为阈值,一般其中n为数据集中数据记录的条数;通过公式1计算向量矩阵中的每个元素的密度,得到密度矩阵P表示如下:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。