【技术实现步骤摘要】
一种高维数据可视化聚类分析方法及系统
本专利技术涉及高维数据可视化聚类领域,特别是涉及一种高维数据可视化聚类分析方法及系统。
技术介绍
可视化技术是一种重要的数据分析工具,其主要利用计算机图形学、图像处理、信号处理等方法来表达数据的内部结构、信息和知识,有利于模式识别、离群点检测等研究。随着计算机和传感设备的飞速发展,多维甚至高维数据已广泛存在经济、医学、军事和工业等领域,如高维功能性磁共振成像数据,多维结构的三层防御体系等。数据维度和规模的增加给数据可视化带来了新的机遇。但是传统的直角坐标最多能表达三维数据,不适用于高维数据可视化研究。目前高维可视化技术主要有两类。其中,一类是降维方法,将高维数据映射到低维空间,并用散点或其他符号表示降维后的数据。主要包括主成分分析、自组织映、神经元度量法等。尽管降维可视化方法在某种意义上能克服可视化技术的维度灾难,但是其可能导致潜在重要信息的丢失,制约着高维数据分析的准确性。另一类方法在不使用降维技术的情况下获得可视化结果,如散点图矩阵、平行坐标系和热点图等,其能完整无损地表示高维数据信息。但是随着数据维数和规模的增加,由于屏 ...
【技术保护点】
1.一种高维数据可视化聚类分析方法,其特征在于,所述方法包括:对高维数据进行归一化预处理;通过多目标遗传算法对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据;利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间,实现高维数据的可视化聚类。
【技术特征摘要】
1.一种高维数据可视化聚类分析方法,其特征在于,所述方法包括:对高维数据进行归一化预处理;通过多目标遗传算法对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据;利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间,实现高维数据的可视化聚类。2.根据权利要求1所述的高维数据可视化聚类分析方法,其特征在于,所述对高维数据进行归一化预处理,具体包括:根据公式对所述高维数据归一化预处理,其中,Fkm和分别表示第k组高维数据在第m维上的原始属性值和归一化后属性值;max(Fm)和min(Fm)分别表示高维数据F在第m维上最大属性值和最小属性值;k=1,2,...,K,m=1,2,...,M,K和M分别表示高维数据F的规模和维数。3.根据权利要求1所述的高维数据可视化聚类分析方法,其特征在于,所述通过多目标遗传算法对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据,具体包括:初始化所述多目标遗传算法的种群;所述种群包括多个个体;所述个体表示所述高维数据的扩展状态;构建多目标评价指标;多目标评价指标包含所述高维数据的扩展维数、拓扑保持指标、Dunn指标;通过多目标评价指标筛选出最优的个体,所述最优的个体表示最优的扩展状态;根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据。4.根据权利要求3所述的高维数据可视化聚类分析方法,其特征在于,所述构建多目标评价指标,具体包括:通过统计种群中各所述个体二进制编码中1的个数,确定所述高维数据的扩展维数;根据公式确定各所述个体的拓扑保持指标,其中,TP表示拓扑保持指标,K表示高维数据F的规模,tk表示第k组数据的等级排序,根据公式确定,u和s均表示最近邻数据点个数,通常u=4,s=10,NNky和nnky分别表示原始空间和映射空间第k组数据点y个最邻近的数据点,nnkl和nnkt分别表示映射空间第k组数据点l个和t个最邻近的数据点;根据公式确定各所述个体Dunn指标,DI表示Dunn指标,d(x,y)表示映射点x和y的欧氏距离,Ci、Cj和Ck均表示映射点i、j、k的聚类簇,nc表示映射点聚类簇数,表示簇Ci和簇Cj的距离;表示簇Ck的直径。5.根据权利要求3所述的高维数据可视化聚类分析方法,其特征在于,所述根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据,具体包括:统计所述归一化处理后的高维数据的各维度在[0,1]取值范围上r等分出现的概率,确定各维度的概率直方图;利用近邻传播聚类算法对各所述概率直方图进行划分,确定各维度划分结果;根据所述划分结果以及所述最优扩展状态进行维度扩展,得到维度扩展后的高维数据,其中,各个维度扩展后的维数等于各维概率分布直方图聚类簇数,各个维度扩展后的数据有且仅有一维数据值等于对应原始维度上的数据值。6.根据权利要求1所述的高维数据可视化聚类分析方法,其特征在于,所述利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间,实现高维数据的可视化聚类,具体包括:构建类圆空间CO,所述类圆空间为二维直角坐标系以原点为圆心的单位圆空间;根据确定各组维度扩展后的高维数据维度之间的相关性,得到相似矩阵,其中,Sij为所述相似矩阵中第i行第j列的元素,K表示高维数据F的规模,tki为第k个组数据在第i维的标序值,所述标序值为利用1到M个整数将所述维度扩展后的高维数据的各组数据按照在各维度上的属性值大小进行标序的数值;通过求解所述相似矩阵的Laplace矩阵最大特征值对应的特征向量,确定Fiedler向量;根据Fiedler向量中元素大小对所述各组维度扩展后的高维数据的维度进行排序,得到排序后的高维数据;根据公式确定排序后的高维数据各维度在CO圆弧上的坐标点Vλ(i),其中,向量λ表示Fiedler向量元素大小的...
【专利技术属性】
技术研发人员:黎明,黄珊,陈昊,陈震,李军华,张聪炫,
申请(专利权)人:南昌航空大学,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。