一种基于数据集成的特异数据自适应检测方法技术

技术编号:21300837 阅读:51 留言:0更新日期:2019-06-12 08:14
本发明专利技术提供了一种基于数据集成的特异数据自适应检测方法,首先把不同来源、格式、特点的数据在数据仓库中集成以实现快速、高效的统一调配,根据数据特征选择不同的基分类器作为实验分类效果评价基准,基于代价敏感学习方法提出了适应不同代价比的分类算法选择模型,获得了自适应检测特异数据的方法,具有良好的稳定性和精确性,为数据处理研究人员在特异数据检测方面提供了新的思路。

An Adaptive Detection Method for Specific Data Based on Data Integration

The invention provides an adaptive detection method for special data based on data integration. Firstly, data from different sources, formats and characteristics are integrated in data warehouse to achieve rapid and efficient unified allocation. Different base classifiers are selected according to data characteristics as evaluation benchmarks for experimental classification effect. Based on cost-sensitive learning method, classification adapted to different cost ratios is proposed. The algorithm selection model obtains the method of adaptive detection of special data, which has good stability and accuracy, and provides a new idea for data processing researchers in the field of special data detection.

【技术实现步骤摘要】
一种基于数据集成的特异数据自适应检测方法
本专利技术属于数据处理及大数据分析
,具体涉及一种基于数据集成的特异数据自适应检测方法。
技术介绍
随着信息化程度的不断提高,产品设计和制造过程中产生了服务于不同生产阶段的海量数据。人们通过数据挖掘从海量数据中得到了许多潜在的有用信息,从而提升了经济效益。但伴随而来的问题是目标数据中含有少量的特异数据,特异数据会导致挖掘结果精度降低甚至结论不可信。因此,有效检测特异数据,常常成为发现问题进而改进决策的契机,对实际生产生活具有重要意义。产业的信息化带来了数据的多样化。针对特征不同的数据集,在一些专利中提出了检测特异数据的技术方案。噪声处理领域中,如何区分噪声样本、数据和极少数类样本及其数据一直是研究的热点问题。有的专利提出使用聚类的方法,依靠对离群值的敏感性来剔除异常值,取得了一定效果。如果噪声出现在两类样本的分类边界,那么难以避免影响到训练效果,进而这些噪声和少数样例混合在一起进入模型会极大地降低模型精度。医学诊断领域中,如何检测健康人群中少数患者的生理特征数据是该领域研究的热点问题。有的专利提出使用分类的方法,却没有进行过抽样或样本构造,而且少数类样本绝对数量少,因此其特征数据中包含的信息量也相应的较为不足,数据匮乏使得其规律难以被分类算法检测,也就无法支撑算法构建理想的分类器,容易出现欠拟合或过拟合的现象。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于数据集成的特异数据自适应检测方法,可以提高数据分类的稳定性和精确性。一种特异数据检测方法,包括如下步骤:步骤1、在目标数据集中切分出训练数据集;步骤2、判断训练数据集中样本数量是否大于设定阈值:如果不大于,使用支持向量机作为基分类器;如果大于,再判断训练数据集中正样本比例是否大于5%:如果不大于,则使用决策树算法作为基分类器;如果大于,使用逻辑回归算法作为基分类器;将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵其中,CTP表示真实为正样本而预测为正样本的代价;CFP表示真实为负样本而预测为正样本的代价;CTN表示真实为负样本而预测为负样本的代价;CFN表示真实为正样本而预测为负样本的代价;最后计算代价比步骤4、判断是否考虑错分代价:如果不考虑代价矩阵,再判断正样本比例是否大于5%:如果不大于,使用优化集成学习方法作为分类算法;如果大于,再判断是否要求最终的分类算法的运行时间低于运行时间Tb:如果不要求,选择欠抽样方法结合步骤2的基分类器作为分类算法;如果要求,使用集成学习方法作为分类算法;如果考虑代价矩阵,再判断代价比是否大于50:如果不大于50,再判断正样本比例是否大于5%:如果不大于5%,使用优化集成学习方法作为分类算法,如果大于5%,使用集成学习方法;如果大于50,再判断正样本比例是否大于5%:如果不大于5%,且要求最终分类算法运行时间小于Tb时,使用MetaCost-1:1结合步骤2选择的基分类器作为分类算法,如果不大于5%且不要求运行时间时,使用优化集成学习方法作为分类算法;如果大于5%,使用优化集成学习方法作为分类算法;步骤5、采用步骤4选择的最终分类算法获得分类结果。进一步的,所述步骤1中,针对不同来源的数据集,先进行过滤和筛选操作,再通过数据库语言建立与数据仓库的连接,实现不同来源、格式和特点的数据的统一处理,得到目标数据集。进一步的,所述步骤1中,所述步骤1中,在目标数据集中切分出测试数据集,代入到最终的分类算法中,对步骤5的分类结果进行检验。较佳的,所述步骤2中,设定阈值为1000。本专利技术具有如下有益效果:本专利技术提供一种基于数据集成的特异数据自适应检测方法,首先把不同来源、格式、特点的数据在数据仓库中集成以实现快速、高效的统一调配,根据数据特征选择不同的基分类器作为实验分类效果评价基准,基于代价敏感学习方法提出了适应不同代价比的分类算法选择模型,获得了自适应检测特异数据的方法,具有良好的稳定性和精确性,为数据处理研究人员在特异数据检测方面提供了新的思路。附图说明图1为本专利技术的一种特异数据自适应检测方法的流程图。具体实施方式下面结合附图并举实施例,对本专利技术进行详细描述。本专利技术中涉及的分类算法分为七大类,分别是过抽样方法(ROS、SMOTE类方法、ADASYN)、欠抽样方法(RUS、ENN、RENN)、集成学习方法(Bagging、Adaboost)、优化集成学习方法(EasyEnsemble、BalanceCascade和BalancedBagging)、随机抽样的MetaCost(MetaCost-Random)和1:1抽样的MetaCost(MetaCost-1:1)。在错分代价未知与已知两种情况下,结合代价比和数据特征,依据数据处理实验中算法表现出的特征和指标优劣,总结出一种分类算法选择模型,以实现自适应检测特异数据。下面结合图1对本专利技术的实施流程作进一步的介绍。步骤1、对目标数据集进行数据集成先对目标数据集进行过滤、筛选等预处理操作,再通过数据库语言建立与数据仓库的连接,实现不同来源、格式、特点的数据进行统一处理。其次,计算目标数据集的正例比例,并进行样本切分,得到训练集与测试集。步骤2、训练基分类器作为Baseline步骤1中的训练集按照样本量的大小和特异数据比例选择不同的基分类器,利用Baseline评估可以得出变更算法带来的影响值,用于评估和比较。对于样本量较小的数据集,使用支持向量机(SVM)作为基分类器;对于样本量较大的数据集,如果数据集极度非平衡(正例占比低于5%)则使用决策树算法作为基分类器,否则可使用逻辑回归算法。基于此,得到基分类器的分类结果和运行时间Tb。步骤3、根据错分矩阵计算代价比基于代价矩阵的代价敏感学习方法,对训练集进行分类并求得代价比。在本专利技术适用解决的二分类问题中,代价矩阵应为一个与混淆矩阵对应的2×2矩阵,其元素依次为CTP,CFP,CFN,CTN,如表1所示。表1由于正确分类不会产生任何代价,通常设定CTP=CTN=0,而在大多数问题中,将关键少数类错分为多数类的代价大于将多数类错分为少数类的代价,例如在用户征信判别问题中,如果向一个信用极差的人误批贷款可能造成的损失远大于未通过一个正常用户的贷款申请所造成的损失,因此一般情况下CFN>CFP。最后计算代价比(CostRatio),代价比是影响分类器性能的重要变量。步骤4、按照错分代价选择合适的分类算法在不考虑错分代价或代价矩阵未知时,如果特异数据占比极低(小于5%)则使用优化集成学习方法作为分类算法,否则考虑对算法的运行时间要求,在不要求算法的运行时间低于Baseline时选择欠抽样方法结合基分类器作为分类算法,反之则使用集成学习方法作为分类算法。在考虑错分代价的情况下,如果代价比较低(低于50),在特异数据占比极低(小于5%)的情况下使用优化集成学习方法作为分类算法,否则使用集成学习方法。如果代价比较高(高于50),在特异数据占比极低(小于5%)且对运行时间有较高要求的情况下使用MetaCost-1:1结合基分类器作为分类算法,否则使用优化集成学习方法作为分类算法。基于步骤3和步骤4,实现本文档来自技高网...

【技术保护点】
1.一种特异数据检测方法,其特征在于,包括如下步骤:步骤1、在目标数据集中切分出训练数据集;步骤2、判断训练数据集中样本数量是否大于设定阈值:如果不大于,使用支持向量机作为基分类器;如果大于,再判断训练数据集中正样本比例是否大于5%:如果不大于,则使用决策树算法作为基分类器;如果大于,使用逻辑回归算法作为基分类器;将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵

【技术特征摘要】
1.一种特异数据检测方法,其特征在于,包括如下步骤:步骤1、在目标数据集中切分出训练数据集;步骤2、判断训练数据集中样本数量是否大于设定阈值:如果不大于,使用支持向量机作为基分类器;如果大于,再判断训练数据集中正样本比例是否大于5%:如果不大于,则使用决策树算法作为基分类器;如果大于,使用逻辑回归算法作为基分类器;将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵其中,CTP表示真实为正样本而预测为正样本的代价;CFP表示真实为负样本而预测为正样本的代价;CTN表示真实为负样本而预测为负样本的代价;CFN表示真实为正样本而预测为负样本的代价;最后计算代价比步骤4、判断是否考虑错分代价:如果不考虑代价矩阵,再判断正样本比例是否大于5%:如果不大于,使用优化集成学习方法作为分类算法;如果大于,再判断是否要求最终的分类算法的运行时间低于运行时间Tb:如果不要求,选择欠抽样方法结合步骤2的基分类器作为分类算法;如果要求,使用集成学习方法作为分类算法;如果考虑代价矩...

【专利技术属性】
技术研发人员:宫琳刘昉张宏俊陈西高俊杨奥祝德刚
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1