融合Boost模型的非平衡数据自适应采样方法技术

技术编号:16153889 阅读:25 留言:0更新日期:2017-09-06 18:49
本发明专利技术公开了一种将模型认知数据和加权特征空间数据分布相结从而优化非平衡数据采样性能的方法,主要解决现有采样技术的盲目性、对现有特征信息的破坏以及在高维度数据上的不适用性。其实现模块为:(1)算法初始化(2)基于Boost模型的数据认知与数据类型定义(3)基于加权特征空间的数据分布关系与数据类型定义(4)Boost定义数据集和加权空间定义数据集的融合(5)融合数据集中特征类型关联的数据合成方法与冗余数据清除方法(6)算法迭代判断模块。本发明专利技术能够结合模型认知数据信息和特征空间数据分布信息,在平衡数据同时去除冗余数据,同时保护了数据原有特征结构,用于大数据领域中对不平衡数据的处理。

【技术实现步骤摘要】
融合Boost模型的非平衡数据自适应采样方法
:本专利技术属于大数据处理
,具体涉及一种融合Boost模型的非平衡数据自适应采样方法。
技术介绍
:目前,针对不平衡数据的处理已经成为大数据处理
中的一个热门研究主题。不平衡数据在研究与实际工作中往往难以避免,如医学大数据、征信大数据、智能商业金融数据等等。而由于不平衡数据的类别样本比例悬殊性,高维度数据的畸变性,导致了可用类别的信息在样本结构和特征维度两个层面被大类别信息掩盖,使得之后的数据挖掘往往难以学习到目标信息。为优化数据分布,学术界着重研究欠采样以及过采样技术,以图利用采样技术缩减大类样本或者扩充小类样本。其中主要技术是:SMOTE采样技术以及其衍生算法、更多的融合算法。SMOTE及其衍生等各钟传统的数据合成方式,虽然能有效生成小类样本,但是其存在几个主要的不足之处是1:将数据合成作为单独的过程考虑,仅基于距离进行数据生成,有一定盲目性;2:对各类特征等同看待,使得主要特征被冗余特征干扰;3:算法目的单一,导致更复杂的数据冗余情况;4:生成的数据往往难以契合之后的识别要求,需要反复的随机测试。李克文、杨磊等人发表的论文“基于RSBoost算法的不平衡数据分类方法”(计算机科学,2015,TP181)中公开了一种将Smote采样和Boost模型相结合进行不平衡数据集分类的方法。该方法首先使用smote算法增加少数类的数量后在保持数据分布的情况下对整数数据集进行随机欠采样,再与Adaboost算法相结合对数据进行分类;其将采样和分类作为串行的步骤,先用Smote算法增加少数类的数量再随机采样从而减少数据集的规模,以增加模型识别精度的同时保证模型训练速度。但是此算法只是算法的拼接,将Smote算法加入到Boost模型的训练之前,以图调整数据分布和规模后使用Boost模型来提升分类准确度,其没有从根本上解决不平衡数据采样中存在的盲目性和重复性问题,同时不能规避传统Smote算法的诸多不足。虽然其采用Adaboost模型有一定可取之处,但是针对不平衡数据采样的盲目将导致数据性能的天花板。胡小生,温菊屏等发表的论文“动态平衡采样的不平衡数据集成分类方法”(智能系统学报,2016,TP181)中提出一种动态平衡数据采样与Boosting技术相结合的不平衡数据集成分类算法。其将Smote算法嵌入到Boosting模型学习的每一次迭代中,即每次迭代初始,综合使用随机欠采样和Smote过采样技术平衡规模的训练数据,然后进行相应子模型的训练,最后将所有子模型组合投票进行。该方法虽然一定程度上将采样融合到模型训练中,有效提高了模型的分类准确度,但是,仍然存在的不足之处是,该方法本质上并没有涉及到对于采样技术的优化,而采样技术的性能瓶颈正是目前解决不平衡问题的关键所在。该方法依然停留在传统采样技术的弊端上,得到的实际效果并没有很大提高。
技术实现思路
:本专利技术所要解决的技术问题在于克服现有的技术缺陷,提供一种融合Boost模型的非平衡数据自适应采样方法,将模型对数据的认知加入到采样中,提升了采样过程中对于小类样本的偏重,同时结合权重特征空间的位置关系,强化了数据生成的准确度以及适应性,有针对地提升了平衡化后数据的性能,同时有效解决了传统采样技术对特征信息的破坏以及在高维数据上的不适用问题。本专利技术所要解决的技术问题采用以下的技术方案来实现:采用Boost模型学习当前数据,取得模型评分与特征权重;使用当前模型评分对特征权重进行更新;使用当前模型判定数据集中的pure数据集合、danger数据集合和noise数据集合;结合特征权重进行数据位置度量,获取数据近邻,同时判定基于加权特征空间距离的pure数据集合、danger数据集合和noise数据集合;将模型判定的三类数据集合和特征空间距离判定的三类数据集合相结合,生成小类样本同时去除大类样本;将新数据集加入模型学习。重复以上过程直至满足自定义类别样本占比,或者各类样本数量基本稳定,则提前停止。其具体步骤如下:(1)算法初始化,即t=0情况(1a)Boost模型初始化,即依据数据规模设定boost参数;(1b)特征权重初始化为等权重;(1c)数据特征类别初始化F,分为连续型特征和离散型特征;(1d)自定义各类别数据目标占比;(2)第t次迭代,训练boost树模型,然后获取特征权重与当前模型的F-score评分,同时取得模型定义的pure、danger、noise数据集合;(2a)采用boost树模型,用预定义参数以及当前数据进行模型的训练;(2b)完成模型训练后,采用weightedF-score对模型进行评分,得到当前模型的相应评分,同时获取当前模型对特征重要性的评分,最终结合第t-1次迭代的特征权重,完成特征权重的更新;(2c)利用第t-1次和第t次模型的评分差,进行算法退出与否的判断,具体为:若模型的评分有较大下降则退出算法;(2d)利用模型对当前数据集进行预测,分别取得danger数据集、pure数据集和noise数据集,分别定义如下:pure数据集:判别正确且判断概率高于预定义阈值的样本点集合;danger数据集:判定概率小于预定义阈值的样本点集合;noise数据集:判错且判定概率大于预定义阈值的样本点集合;(3)计算样本点在加权特征空间的位置关系,并依据距离位置关系定义danger、pure、noise数据集合;(3a)利用(2)中更新得到的特征权重,计算数据集在此加权特征空间中的距离;主要方法为:对于连续型特征计算加权欧氏距离,对于离散型特征采用函数f进行计算,其中f定义为两个样本点特征值于同类样本对应特征中数值占比之差;(3b)使用(3a)中的距离度量方式,获取样本点之间的相应位置关系,并基于此位置关系定义danger数据集、pure数据集和noise数据集,分别为:pure数据集:样本点的m个相邻样本点均与其同类;danger数据集:样本点的m个相邻样本点有与其不同类;noise数据集:样本点的m个相邻样本点小于与其不同类;(4)将(2)和(3)中分别得到的danger数据集、pure数据集和noise数据集进行融合,形成待删除样本点集合和用于生成新样例的样本点集合;(4a)采用集合运算的方式将(2)和(3)中得到的三类数据集分别进行融合,得到pure融合集、danger融合集以及noise融合集,分别定义如下:pure融合集:样本点同属于模型定义pure集和加权特征空间定义pure集;danger融合集:样本点不属于模型定义danger集,而属于加权特征空间定义danger集;noise融合集:样本点属于模型定义noise集或者属于加权特征空间定义noise集;(4b)完成上述融合方式后,利用融合数据集合生成待删除数据集以及待生成新样本点的数据集,分别定义如下:pure删除集:属于pure融合集,且标签属于大类的样本点;noise删除集:属于noise融合集,且标签属于大类的样本点;repeat删除集:于加权特征空间中重叠的所有样本点;pure创建集:属于pure融合集且类标签属于小类的样本点;danger创建集:属于danger融合集,且标签属于小类的样本点;(4c)由上述四个数据集出发,本文档来自技高网
...
融合Boost模型的非平衡数据自适应采样方法

【技术保护点】
一种融合Boost模型的非平衡数据自适应采样方法,其特征在于,其具体步骤如下:(1)算法初始化,即t=0情况(1a)Boost模型初始化,即依据数据规模设定boost参数;(1b)特征权重初始化为等权重;(1c)数据特征类别初始化F,分为连续型特征和离散型特征;(1d)自定义各类别数据目标占比;(2)第t次迭代,训练boost树模型,然后获取特征权重与当前模型的F‑score评分,同时取得模型定义的pure、danger、noise数据集合;(2a)采用boost树模型,用预定义参数以及当前数据进行模型的训练;(2b)完成模型训练后,采用weighted F‑score对模型进行评分,得到当前模型的相应评分,同时获取当前模型对特征重要性的评分,最终结合第t‑1次迭代的特征权重,完成特征权重的更新;(2c)利用第t‑1次和第t次模型的评分差,进行算法退出与否的判断,具体为:若模型的评分有较大下降则退出算法;(2d)利用模型对当前数据集进行预测,分别取得danger数据集、pure数据集和noise数据集,分别定义如下:pure数据集:判别正确且判断概率高于预定义阈值的样本点集合;danger数据集:判定概率小于预定义阈值的样本点集合;noise数据集:判错且判定概率大于预定义阈值的样本点集合;(3)计算样本点在加权特征空间的位置关系,并依据距离位置关系定义danger、pure、noise数据集合;(3a)利用(2)中更新得到的特征权重,计算数据集在此加权特征空间中的距离;主要方法为:对于连续型特征计算加权欧氏距离,对于离散型特征采用函数f进行计算,其中f定义为两个样本点特征值于同类样本对应特征中数值占比之差;(3b)使用(3a)中的距离度量方式,获取样本点之间的相应位置关系,并基于此位置关系定义danger数据集、pure数据集和noise数据集,分别为:pure数据集:样本点的m个相邻样本点均与其同类;danger数据集:样本点的m个相邻样本点有...

【技术特征摘要】
1.一种融合Boost模型的非平衡数据自适应采样方法,其特征在于,其具体步骤如下:(1)算法初始化,即t=0情况(1a)Boost模型初始化,即依据数据规模设定boost参数;(1b)特征权重初始化为等权重;(1c)数据特征类别初始化F,分为连续型特征和离散型特征;(1d)自定义各类别数据目标占比;(2)第t次迭代,训练boost树模型,然后获取特征权重与当前模型的F-score评分,同时取得模型定义的pure、danger、noise数据集合;(2a)采用boost树模型,用预定义参数以及当前数据进行模型的训练;(2b)完成模型训练后,采用weightedF-score对模型进行评分,得到当前模型的相应评分,同时获取当前模型对特征重要性的评分,最终结合第t-1次迭代的特征权重,完成特征权重的更新;(2c)利用第t-1次和第t次模型的评分差,进行算法退出与否的判断,具体为:若模型的评分有较大下降则退出算法;(2d)利用模型对当前数据集进行预测,分别取得danger数据集、pure数据集和noise数据集,分别定义如下:pure数据集:判别正确且判断概率高于预定义阈值的样本点集合;danger数据集:判定概率小于预定义阈值的样本点集合;noise数据集:判错且判定概率大于预定义阈值的样本点集合;(3)计算样本点在加权特征空间的位置关系,并依据距离位置关系定义danger、pure、noise数据集合;(3a)利用(2)中更新得到的特征权重,计算数据集在此加权特征空间中的距离;主要方法为:对于连续型特征计算加权欧氏距离,对于离散型特征采用函数f进行计算,其中f定义为两个样本点特征值于同类样本对应特征中数值占比之差;(3b)使用(3a)中的距离度量方式,获取样本点之间的相应位置关系,并基于此位置关系定义danger数据集、pure数据集和noise数据集,分别为:pure数据集:样本点的m个相邻样本点均与其同类;danger数据集:样本点的m个相邻样本点有与其不同类;noise数据集:样本点的m个相邻样本点小于与其不同类;(4)将(2)和(3)中分别得到的danger数据集、pure数据集和noise数据集进行融合,形成待删除样本点集合和用于生成新样例的样本点集合;(4a)采用集合运算的方式将(2)和(3)中得到的三类数据集分别进行融合,得到pure融合集、danger融合集以及noise融合集,分别定义如下:pure融合集:样本点同属于模型定义pure集和加权特征空间定义pure集;danger融合集:样本点不属于模型定义danger集,而属于加权特征空间定义danger集;noise融合集:样本点属于模型定义noise集或者属于加权特征空间定义noise集;(4b)完成上述融合方式后,利用融合数据集合生成待删除数据集以及待生成新样本点的数据集,分别定义如下:pure删除集:属于pure融合集,且标签属于大类的样本点;noise删除集:属于noise融合集,且标签属...

【专利技术属性】
技术研发人员:宋彬徐慧囝陈思佳张艳
申请(专利权)人:芜湖宣投文化传播有限公司
类型:发明
国别省市:安徽,34

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1