The invention discloses a data analysis method and a device, belonging to the field of data analysis. The data analysis methods include: obtaining the set of n-dimensional data, including the training set and the test set, the total amount of the training data points in the training center is greater than the total amount of the test data points, n > 2, n is an integer; the corresponding Parson windows are generated according to each test data point; and each test data is calculated according to the Parson window. The probability density, the probability density, is used to indicate the intensity of the data point training in the Parson window, and the distribution of the data points in the n-dimensional data set is determined according to the probability density corresponding to each test data point. The embodiment of the invention determines the data distribution of the data set under the premise of not reducing the dimension of the n-dimensional data set, which ensures the data accuracy of the data analysis process, and avoids the problem of reducing the accuracy of data analysis by reducing the dimension of the data set and affecting the accuracy of the data analysis.
【技术实现步骤摘要】
数据分析方法及装置
本专利技术实施例涉及数据分析领域,特别涉及一种数据分析方法及装置。
技术介绍
数据分析是一种从数据集中挖掘数据规律以及数据间关联关系的技术,而确定数据集的数据分布则是数据分析过程中所要解决的重要问题之一。数据集通常具有多个维度,且不同的维度用于指示不同的属性或特征。比如,网站中注册用户的用户信息所构成的数据集包括性别、年龄、地域等不同维度。对于低维度的数据集,根据数据集中的数据绘制数据点集即可直观了解到数据的分布情况;但是对于高维度的数据集,则难以通过绘制数据点集的方式来确定数据的分布情况。现有技术中,为了实现数据分布可视化,当数据集的维度较高时,需要对数据集进行降维处理。其中,常见的降维处理方式包括低方差滤波、高方差滤波和反向特征消除等等。在实现本专利技术实施例的过程中,专利技术人发现上述技术至少存在以下问题:在对高维数据集进行降维的过程中,部分维度或部分维度下的数据会被精简,导致数据分析过程中所分析数据的精度降低,影响数据分析结果的准确性。
技术实现思路
为了解决现有技术中在对高维数据集进行降维的过程中,部分维度或部分维度下的数据会被精简,导致 ...
【技术保护点】
一种数据分析方法,其特征在于,所述方法包括:获取n维数据集,所述n维数据集中包括训练集和测试集,所述训练集中训练数据点的总量大于所述测试集中测试数据点的总量,n≥2,n为整数;根据各个所述测试数据点生成各自对应的帕森窗;根据所述帕森窗计算各个所述测试数据点对应的概率密度,所述概率密度用于指示所述帕森窗内所述训练数据点的密集程度;根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况。
【技术特征摘要】
1.一种数据分析方法,其特征在于,所述方法包括:获取n维数据集,所述n维数据集中包括训练集和测试集,所述训练集中训练数据点的总量大于所述测试集中测试数据点的总量,n≥2,n为整数;根据各个所述测试数据点生成各自对应的帕森窗;根据所述帕森窗计算各个所述测试数据点对应的概率密度,所述概率密度用于指示所述帕森窗内所述训练数据点的密集程度;根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况。2.根据权利要求1所述的方法,其特征在于,所述帕森窗为高斯窗;所述根据各个所述测试数据点生成各自对应的帕森窗,包括:根据所述测试数据点生成所述高斯窗,不同的所述测试数据点对应不同的所述高斯窗,所述高斯窗的形状与高斯概率分布曲线的形状相同,且所述测试数据点与所述高斯概率分布曲线的均值点μ对应;所述根据所述帕森窗计算各个所述测试数据点对应的概率密度,包括:根据所述高斯窗对应的高斯分布概率密度函数,计算所述训练集中各个所述训练数据点各自对应的概率密度函数值;对各个所述训练数据点对应的所述概率密度函数值进行累加,得到所述测试数据点对应的所述概率密度。3.根据权利要求1所述的方法,其特征在于,所述帕森窗为n维方形窗;所述根据各个所述测试数据点生成各自对应的帕森窗包括:根据所述测试数据点生成所述n维方形窗,所述测试数据点位于所述n维方形窗的中心点;所述根据所述帕森窗计算各个所述测试数据点对应的概率密度,包括:将位于所述n维方形窗内部的所述训练数据点确定为目标数据点;根据所述目标数据点的数量、所述训练集中所述训练数据点的总量以及所述n维方形窗的数据点容量,计算所述测试数据点的所述概率密度。4.根据权利要求1至3任一所述的方法,其特征在于,所述根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况,包括:根据各个所述测试数据点对应的所述概率密度,生成所述测试集对应的概率密度分布曲线,所述概率密度分布曲线用于指示所述n维数据集中数据点的分布情况。5.根据权利要求4所述的方法,其特征在于,所述根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况之后,还包括:确定所述概率密度分布曲线中的波峰和波谷;根据所述概率密度分布曲线上波峰和波谷的分布情况,确定数据是否线性可分。6.根据权利要求5所述的方法,其特征在于,所述根据所述概率密度分布曲线上波峰和波谷的分布情况,确定数据是否线性可分,包括:确定波峰中包含的有效波峰以及波谷中包含的有效波谷;检测相邻的所述有效波峰之间是否存在所述有效波谷;当相邻的所述有效波峰之间存在所述有效波谷时,确定数据线性可分;当相邻的所述有效波峰之间不存在所述有效波谷时,确定数据非线性可分。7.根据权利要求6所述的方法,其特征在于,所述确定波峰中包含的有效波峰以及波谷中包含的有效波谷,包括:当H(x,x-axis)1>H(Max,Min)/i1时,确定波峰为所述有效波峰;当H(x,x-axis)2<H(Max,Min)/i2时,确定波谷为所述有效波谷;其中,H(x,x-axis)1用于指示波峰的波峰点到X轴的垂直距离差,H(x,x-axis)2用于指示波谷的波谷点到X轴的垂直距离差,H(Max,Min)用于指示最大波峰点到最...
【专利技术属性】
技术研发人员:周力,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。