一种数据分析处理方法及系统技术方案

技术编号:41059920 阅读:14 留言:0更新日期:2024-04-24 11:11
本发明专利技术涉及数据处理技术领域,公开了一种数据分析处理方法及系统。利用多个待分析处理数据建立样本集;根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;获取第一类样本的特征值与每一个第二类样本的特征值之间的皮尔逊相关系数;获取每一个皮尔逊相关系数对应的权重,将权重分别写入第一类样本和第二类样本;利用K中心聚类算法对所述特征权重样本集进行聚类;计算获得聚类簇的抽离样本的数量;根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。本发明专利技术在处理相同标准数据集时具有更好分类效果,显著提高了数据集中各类的分类精度。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体而言,涉及一种数据分析处理方法及系统


技术介绍

1、不平衡数据分类问题广泛存在于实际应用场景的多个领域中,在数据不平衡条件下直接构建分类模型会导致分类器将更多地关注度集中于多数类样本,难以保证少数类样本的识别精度。非均衡数据集中不同类别之间数据样本分布不均衡,其中多数类样本属于某种类别,而余下的属于其它类别。然而,少数类样本所包含的信息通常更受关注,其误判的代价也更高。因此,在数据分布不平衡条件下提升少数类样本的分类精度十分必要。目前,国内外学者主要从数据平衡化处理、分类算法改进或两者结合的途径解决分类中的数据不平衡问题。非均衡数据处理方法的出现,使得数据挖掘技术向前迈进了一大步的同时也极大地推动了大数据的发展。例如,数据平衡化处理以过采样和欠采样为主要手段,独立于分类器,具有对各种具体分类算法的广泛适用性,因此应用较为广泛。其中过采样和欠采样分别通过扩增少数类样本和删除部分多数类样本构建平衡数据集,但欠采样在删除样本过程中易删除对分类影响较大的多数类样本从而造成重要信息丢失,即欠采样方法就是多数类数据中对一部分样本数据进行增本文档来自技高网...

【技术保护点】

1.一种数据分析处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种数据分析处理方法,其特征在于,所述利用待分析处理数据建立样本集,包括以下步骤:

3.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:

4.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,获取皮尔逊相关系数Cij包括以下步骤:

5.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,抽离样本的数量的计算公式为:;D表示需抽离样本的数量;表示样本集中第二类样本的数量;m表示聚类簇...

【技术特征摘要】

1.一种数据分析处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种数据分析处理方法,其特征在于,所述利用待分析处理数据建立样本集,包括以下步骤:

3.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:

4.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,获取皮尔逊相关系数cij包括以下步骤:

5.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,抽离样本的数量的计算公式为:;d表示需抽离样本的数量;表示样本集中第二类样本的数量;m表...

【专利技术属性】
技术研发人员:潘贤真马骎骎赵志军范浩张晓彤
申请(专利权)人:中外运创新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1