【技术实现步骤摘要】
本专利技术涉及数据处理,具体而言,涉及一种数据分析处理方法及系统。
技术介绍
1、不平衡数据分类问题广泛存在于实际应用场景的多个领域中,在数据不平衡条件下直接构建分类模型会导致分类器将更多地关注度集中于多数类样本,难以保证少数类样本的识别精度。非均衡数据集中不同类别之间数据样本分布不均衡,其中多数类样本属于某种类别,而余下的属于其它类别。然而,少数类样本所包含的信息通常更受关注,其误判的代价也更高。因此,在数据分布不平衡条件下提升少数类样本的分类精度十分必要。目前,国内外学者主要从数据平衡化处理、分类算法改进或两者结合的途径解决分类中的数据不平衡问题。非均衡数据处理方法的出现,使得数据挖掘技术向前迈进了一大步的同时也极大地推动了大数据的发展。例如,数据平衡化处理以过采样和欠采样为主要手段,独立于分类器,具有对各种具体分类算法的广泛适用性,因此应用较为广泛。其中过采样和欠采样分别通过扩增少数类样本和删除部分多数类样本构建平衡数据集,但欠采样在删除样本过程中易删除对分类影响较大的多数类样本从而造成重要信息丢失,即欠采样方法就是多数类数据中对
...【技术保护点】
1.一种数据分析处理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种数据分析处理方法,其特征在于,所述利用待分析处理数据建立样本集,包括以下步骤:
3.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:
4.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,获取皮尔逊相关系数Cij包括以下步骤:
5.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,抽离样本的数量的计算公式为:;D表示需抽离样本的数量;表示样本集中第二类样本
...【技术特征摘要】
1.一种数据分析处理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种数据分析处理方法,其特征在于,所述利用待分析处理数据建立样本集,包括以下步骤:
3.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:
4.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,获取皮尔逊相关系数cij包括以下步骤:
5.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,抽离样本的数量的计算公式为:;d表示需抽离样本的数量;表示样本集中第二类样本的数量;m表...
【专利技术属性】
技术研发人员:潘贤真,马骎骎,赵志军,范浩,张晓彤,
申请(专利权)人:中外运创新科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。