当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于LargeVis的随机森林可视化数据分析方法技术

技术编号:18445190 阅读:4 留言:0更新日期:2018-07-14 10:29
本发明专利技术涉及一种基于LargeVis的随机森林可视化数据分析方法。训练数据集预处理;通过随机森林提取训练数据集重要特征;采用LargeVis进行降维处理;基于LargeVis的随机森林进行可视化处理。本发明专利技术提出一种基于LargeVis的随机森林可视化的数据分析方法,针对高维数据,利用随机森林训练出的特征重要性,形成新的次高维数据,再利用LargeVis降维后的数据,送入随机森林进行预测分析并形成可视化,可以提高分类精度,又可以提高可视化的时间,同时适应不同的数据。

A random forest visualization data analysis method based on LargeVis

The invention relates to a random forest visualization data analysis method based on LargeVis. The training data set is preprocessed; the important features of the data set are trained by the random forest; the LargeVis is used to reduce the dimension of the data; the random forest based on the LargeVis is visualized. A data analysis method based on LargeVis based random forest visualization is proposed in this invention. According to the high dimensional data, a new secondary high dimension data is formed by using the characteristic importance trained by the random forest, and then the data after the LargeVis dimensionality reduction is used to be sent into the random forest to predict and analyze the data and form the visualization, which can improve the classification precision. It also improves the visualization time and adapts to different data.

【技术实现步骤摘要】
一种基于LargeVis的随机森林可视化数据分析方法
本专利技术涉及模式识别、机器学习、大数据分析,特别是一种基于LargeVis的随机森林可视化数据分析方法。
技术介绍
大数据时代,数据特征的维度越来越高,而通过某种降维的方法来对数据进行分析就变得尤其重要,同时,如何对高维数据可视化也是当前环境下的研究重点。目前,最经典的降维方法是PCA(PrincipalComponentAnalysis)不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。之后,研究者提出了流形学习,增加了可视化的研究,流形学习即非线性降维的主要算法有:ISOMap(等距映射)、LE(拉普拉斯特征映射)、LLE(局部线性嵌入)。流形学习的假设:数据采样于某一流形上。主要算法有:ISOMap是一种非迭代的全局优化算法。ISOMap对MDS(MultidimensionalScaling-多维尺度分析)进行改造,用测地线距离(曲线距离)作为空间中两点距离,原来是用欧氏距离,从而将位于某维流形上的数据映射到一个欧氏空间上。ISOMap将数据点连接起来构成一个邻接Graph来离散地近似原来流形,而测地距离则相应地通过Graph上的最短路径来近似了。在此基础上,最近,Maaten又写了一篇论文对t-SNE算法进行了改进,使用了各种基于树的算法,具体包括两部分内容:一是采用了kNN图来表示高维空间中点的相似性;二是优化了梯度的求解过程,将梯度计算分为引力和斥力两部分,同样使用了一些优化技巧。从上述方案可知,各种降维的算法都可以减少预测变量的个数,可对最后的结果提供一个框架解释。目前,流形学习中t-SNE的算法得到了广泛应用,但存在以下不足:处理大规模高维数据时,t-SNE的效率显著降低(包括改进后的算法);t-SNE中的参数对不同数据集较为敏感,在一个数据集上调好了参数,得到了一个不错的可视化效果,却发现不能在另一个数据集上适用,还得花费大量时间寻找合适的参数,而这对于整个分类模型的局限性非常巨大;单纯的原始高维数据通过降维方式直接进入模型训练并分类,精度较低,训练时间较多。此外,目前对于数据降维的方法,大致都是利用原始数据进行降维,并利用现有的模型进行分类,但这可能存在精度不高,降维的数据没有解释性等问题。本专利技术提出一种基于LargeVis的随机森林可视化的数据分析算法,针对高维数据,利用随机森林训练出的特征重要性,形成新的次高维数据,再利用LargeVis降维后的数据,送入随机森林进行预测分析并形成可视化。因此,针对胎儿心率的特征提取分类和可视化的问题,本专利技术提出了新的解决方案。
技术实现思路
本专利技术的目的在于提供一种基于LargeVis的随机森林可视化数据分析方法,以克服现有技术中存在的缺陷。为实现上述目的,本专利技术的技术方案是:一种基于LargeVis的随机森林可视化数据分析方法,按照如下步骤实现:步骤S1:训练数据集预处理;步骤S2:通过随机森林提取训练数据集中比重大于预设比重阈值的样本特征;步骤S3:采用LargeVis进行降维处理步骤S4:基于LargeVis的随机森林进行可视化处理。在本专利技术一实施例中,在所述步骤S1中,采用SMOTE方法进行数据不平衡处理,并通过采用中位数和数据中未有的数字进行替换进行数据异常值处理。在本专利技术一实施例中,在所述步骤S2中,还包括如下步骤:步骤S21:初步估计和排序;步骤S211:对随机森林中的特征变量按照VI降序排序;步骤S212:确定删除比例;从当前已降序排列的特征变量中剔除20%小于预设比重阈值的特征变量,从而得到一个新的特征集;步骤S213:用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;步骤S214:重复以上步骤,直到剩下m个特征;步骤S22:根据步骤S21中得到的每个特征集和对应建立起来的随机森林,计算对应的袋外误差率,将袋外误差率最低的特征集作为最后选定的特征集。在本专利技术一实施例中,在所述步骤S3中,根据步骤S2获取的结果,通过一随机投影树获取一划分空间,在此基础上寻找每个样本点的k近邻,得到一个初步K最近邻;根据近邻直达,利用邻居搜索算法寻找潜在的邻居,计算邻居与当前点、邻居的邻居与当前点的距离,并放入一小根堆中,取距离最小的k个节点作为k近邻,得到一最终kNN图。在本专利技术一实施例中,对于无权值网络,用yi和yj表示低维空间中的两个点,两个点在所述kNN图中有一条二元边eij的概率为:P(eij=1)=f(‖yi-yj‖2)其中,f(·)类似的用到了t-SNE里的t分布,若yi和yj之间的距离越小,两点在所述kNN图中有二元边的概率较大;反之,若yi和yj之间的距离越大,则两点在所述kNN图中有二元边的概率越小;对于有权值网络,边权值为wij的概率为:整个优化目标为最大化正样本的节点对在所述kNN图中有连接边的概率,最小化负样本的节点对在所述kNN图中有连接边的概率;记γ为负样本边设定的权值,再取一个对数,优化目标变为:对每一个点i,根据一个噪声分布Pn(j)随机选取M个点与i构成负样本,该噪声分布采用其中dj为点j的度,也即目标函数为:在本专利技术一实施例中,通过完成负采样和边采样优化后,采用异步随机梯度下降进行训练。在本专利技术一实施例中,LargeVis的时间复杂度与网络中的节点数量呈线性关系。在本专利技术一实施例中,在所述步骤S4中,根据所获的低维空间数据,绘制出低维数据的分布图。相较于现有技术,本专利技术具有以下有益效果:(1)本专利技术采用基于LargeVis的方法,第一可以提高运行速度,其二,对于不同的数据集具有很好的适应能力,可以有效提升整体模型的性能。(2)本专利技术采用随机森林可解释模型,先对数据进行一轮特征提取,减少不必要的特征,留下重要的特征,形成新的特征样本,并进行降维,将降维后的数据输入随机森林进行分类,一方面提高整体模型性能,另一方面降维后的数据可视化,更加的直观,对于用户来讲,解释性更强。(3)本专利技术模型只存在两个基本模型,但可以实现分类、可视化、降维、数据预处理和特征提取,与其他算法相比可利用性更强。附图说明图1为本专利技术中基于LargeVis的随机森林可视化数据分析方法的流程图。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术一种一种基于LargeVis的随机森林可视化数据分析方法,按照如下步骤实现:步骤S1:训练数据集预处理;步骤S2:通过随机森林提取训练数据集中比重大于预设比重阈值的样本特征;步骤S3:采用LargeVis进行降维处理步骤S4:基于LargeVis的随机森林进行可视化处理。在本实施例中,由于在实际应用中,会出现数据样本不平衡和异常值的问题,这将导致糟糕的分类结果。训练数据集不平衡,会造成模式识别中的许多问题。例如,如果数据集不平衡,则分类器倾向于“学习”最大比例的样本,也即分类器使得它的准确率最高更偏向于比例高的样本,并以最高的精度对它们进行聚类。在实际应用中,这种偏见是不可接受的。为了实现样本数据的均匀分布,本文档来自技高网
...

【技术保护点】
1.一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,按照如下步骤实现:步骤S1:训练数据集预处理;步骤S2:通过随机森林提取训练数据集中比重大于预设比重阈值的样本特征;步骤S3:采用LargeVis进行降维处理步骤S4:基于LargeVis的随机森林进行可视化处理。

【技术特征摘要】
1.一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,按照如下步骤实现:步骤S1:训练数据集预处理;步骤S2:通过随机森林提取训练数据集中比重大于预设比重阈值的样本特征;步骤S3:采用LargeVis进行降维处理步骤S4:基于LargeVis的随机森林进行可视化处理。2.根据权利要求1所述的一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,在所述步骤S1中,采用SMOTE方法进行数据不平衡处理,并通过采用中位数和数据中未有的数字进行替换进行数据异常值处理。3.根据权利要求1所述的一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,在所述步骤S2中,还包括如下步骤:步骤S21:初步估计和排序;步骤S211:对随机森林中的特征变量按照VI降序排序;步骤S212:确定删除比例;从当前已降序排列的特征变量中剔除20%小于预设比重阈值的特征变量,从而得到一个新的特征集;步骤S213:用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序;步骤S214:重复以上步骤,直到剩下m个特征;步骤S22:根据步骤S21中得到的每个特征集和对应建立起来的随机森林,计算对应的袋外误差率,将袋外误差率最低的特征集作为最后选定的特征集。4.根据权利要求1所述的一种基于LargeVis的随机森林可视化数据分析方法,其特征在于,在所述步骤S3中,根据步骤S2获取的结果,通过一随机投影树获取一划分空间,在此基础上寻找每个样本点的k近邻,得到一个初步K最近邻;根据近邻直达,利用邻居搜索算法寻找...

【专利技术属性】
技术研发人员:黄立勤陈宋
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1