The invention relates to a random forest visualization data analysis method based on LargeVis. The training data set is preprocessed; the important features of the data set are trained by the random forest; the LargeVis is used to reduce the dimension of the data; the random forest based on the LargeVis is visualized. A data analysis method based on LargeVis based random forest visualization is proposed in this invention. According to the high dimensional data, a new secondary high dimension data is formed by using the characteristic importance trained by the random forest, and then the data after the LargeVis dimensionality reduction is used to be sent into the random forest to predict and analyze the data and form the visualization, which can improve the classification precision. It also improves the visualization time and adapts to different data.
【技术实现步骤摘要】
一种基于LargeVis的随机森林可视化数据分析方法
本专利技术涉及模式识别、机器学习、大数据分析,特别是一种基于LargeVis的随机森林可视化数据分析方法。
技术介绍
大数据时代,数据特征的维度越来越高,而通过某种降维的方法来对数据进行分析就变得尤其重要,同时,如何对高维数据可视化也是当前环境下的研究重点。目前,最经典的降维方法是PCA(PrincipalComponentAnalysis)不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。之后,研究者提出了流形学习,增加了可视化的研究,流形学习即非线性降维的主要算法有:ISOMap(等距映射)、LE(拉普拉斯特征映射)、LLE(局部线性嵌入)。流形学习的假设:数据采样于某一流形上。主要算法有:ISOMap是一种非迭代的全局优化算法。ISOMap对MDS(MultidimensionalScaling-多维尺度分析)进行改造,用测地线距离(曲线距离)作为空间中两点距离,原来是用欧氏距离,从而将位于某维流形上的数据映射到一个欧氏空间上。ISOMap将数据点连接起来构成一个邻接Graph来离散地近似原来流形,而测地距离则相应地通过Graph上的最短路径来近似了。在此基础上,最近,Maaten又写了一篇论文对t-SNE算法进行了改进,使用了各种基于树的算法,具体包括两部分内容:一是采用了kNN图来表示高维空间 ...
【技术保护点】
1.一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,按照如下步骤实现:步骤S1:训练数据集预处理;步骤S2:通过随机森林提取训练数据集中比重大于预设比重阈值的样本特征;步骤S3:采用LargeVis进行降维处理步骤S4:基于LargeVis的随机森林进行可视化处理。
【技术特征摘要】
1.一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,按照如下步骤实现:步骤S1:训练数据集预处理;步骤S2:通过随机森林提取训练数据集中比重大于预设比重阈值的样本特征;步骤S3:采用LargeVis进行降维处理步骤S4:基于LargeVis的随机森林进行可视化处理。2.根据权利要求1所述的一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,在所述步骤S1中,采用SMOTE方法进行数据不平衡处理,并通过采用中位数和数据中未有的数字进行替换进行数据异常值处理。3.根据权利要求1所述的一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,在所述步骤S2中,还包括如下步骤:步骤S21:初步估计和排序;步骤S211:对随机森林中的特征变量按照VI降序排序;步骤S212:确定删除比例;从当前已降序排列的特征变量中剔除20%小于预设比重阈值的特征变量,从而得到一个新的特征集;步骤S213:用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;步骤S214:重复以上步骤,直到剩下m个特征;步骤S22:根据步骤S21中得到的每个特征集和对应建立起来的随机森林,计算对应的袋外误差率,将袋外误差率最低的特征集作为最后选定的特征集。4.根据权利要求1所述的一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,在所述步骤S3中,根据步骤S2获取的结果,通过一随机投影树获取一划分空间,在此基础上寻找每个样本点的k近邻,得到一个初步K最近邻;根据近邻直达,利用邻居搜索算法寻找...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。