The invention discloses an automatic machine learning method for unbalanced samples, which is characterized by the following steps: step 1, preparing the original data, collecting and storing the original data according to business understanding; step 2, preprocessing the original data; step 3, splitting the training set, testing set, for later use Step 4, sample balancing, under-sampling and over-sampling for the class with more samples; Step 5, with the goal of optimizing AUC value, calls Python packet to perform automatic machine learning; Step 6, model validation, observing precision, recall, F1 score, AUC value, model effect When it is not ideal, it returns to re execute step 5; step 7, the modeling is completed. The invention is oriented to the binary classification prediction of supervised learning, and proposes an effective implementation scheme to solve the sample imbalance and automatically perform the optimal algorithm selection and parameter adjustment, which can save a lot of manpower and obtain a reliable prediction effect.
【技术实现步骤摘要】
一种针对不均衡样本执行自动化机器学习的方法
本专利技术涉及数据挖掘领域,特别是涉及一种针对不均衡样本执行自动化机器学习的方法。
技术介绍
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。它致力于通过计算手段,利用经验来改善系统自身性能。机器学习主要研究在计算机上从数据产生模型的算法,即学习算法。在面对新情况时,模型会提供相应判决。过去20年内,人类收集,存储,传输,处理数据的能力明显提高,迫切需要从有效数据中总结规律,分析利用。机器学习刚好满足上述需求,因而受到广泛关注。根据问题类型,机器学习算法划分为有监督学习,无监督学习,半监督学习等任务。有监督学习从有标记的训练数据入手,每个样本有一组输入及一个期望输出。根据输入输出训练模型,训练好后,给一组新的输入,可以预测输出。无监督学习只有输入,没有期望输出。根据输入训练模型,解决模式识别的各种问题。半监督学习使用大量未标记数据,同时也使用标记数据,来进行模式识别工作。有监督学习任务训练模型进行二分类时,正反例样本往往不均衡,即一类样本数明显多于另一类样本数(比如欺诈账户识别,癌症识别等案例,正反例样本比例明显超过4:1)。不均衡样本直接影响模型预测效果。例如,正反例样本比例为9:1,即使模型将全部样本判为正例(不预测直接得到输出),判别准确率仍为90%,但此模型没有预测能力。同时,机器学习涉及多种算法,每种算法有各自参数需要调节。在进行二分类预测时,选择哪种算法及相应参数,都需要手工调试,非常耗时。因此,需要一种针对不均衡样本执行自动化机器学习的方法。
技术实现思路
本专利技术 ...
【技术保护点】
1.一种针对不均衡样本执行自动化机器学习的方法,其特征在于,包括如下步骤:步骤1,准备原始数据,根据业务理解收集、存储原始数据;步骤2,对原始数据进行数据预处理;步骤3,拆分训练集,测试集,供后期建模训练,验证效果;步骤4,样本均衡处理,对样本偏多的类进行欠采样,反之进行过采样;步骤5,以AUC值最优为目标,调用python包,执行自动化机器学习;步骤6,模型验证,观察查准率、查全率、F1分数、AUC值,如模型效果低于理想值时,返回重新执行步骤5;步骤7,建模完成。
【技术特征摘要】
1.一种针对不均衡样本执行自动化机器学习的方法,其特征在于,包括如下步骤:步骤1,准备原始数据,根据业务理解收集、存储原始数据;步骤2,对原始数据进行数据预处理;步骤3,拆分训练集,测试集,供后期建模训练,验证效果;步骤4,样本均衡处理,对样本偏多的类进行欠采样,反之进行过采样;步骤5,以AUC值最优为目标,调用python包,执行自动化机器学习;步骤6,模型验证,观察查准率、查全率、F1分数、AUC值,如模型效果低于理想值时,返回重新执行步骤5;步骤7,建模完成。2.如权利要求1所述的一种针对不均衡样本执行自动化机器学习的方法,其特征在于,所述步骤2中的数据预处理还包括:步骤21进行数据清洗,删除或填充丢失数据;步骤22对数据进行标准化,将数据映射至[0,1]区间,减少指标之间的量纲差异。3.如权利要求2所述的一种针对不均衡样本执行自动化机器学习的方法,其特征在于,所述步骤22中对数据进行标准化的方法是调用sklearn.preprocessing.MinMaxScaler的fit_transform。4.如权利要求3所述的一种针对不均衡样本执行自动化机器学习的...
【专利技术属性】
技术研发人员:王旻毅,王婷,房鹏展,
申请(专利权)人:焦点科技股份有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。