The invention provides an adaptive detection method for special data based on data integration. Firstly, data from different sources, formats and characteristics are integrated in data warehouse to achieve rapid and efficient unified allocation. Different base classifiers are selected according to data characteristics as evaluation benchmarks for experimental classification effect. Based on cost-sensitive learning method, classification adapted to different cost ratios is proposed. The algorithm selection model obtains the method of adaptive detection of special data, which has good stability and accuracy, and provides a new idea for data processing researchers in the field of special data detection.
【技术实现步骤摘要】
一种基于数据集成的特异数据自适应检测方法
本专利技术属于数据处理及大数据分析
,具体涉及一种基于数据集成的特异数据自适应检测方法。
技术介绍
随着信息化程度的不断提高,产品设计和制造过程中产生了服务于不同生产阶段的海量数据。人们通过数据挖掘从海量数据中得到了许多潜在的有用信息,从而提升了经济效益。但伴随而来的问题是目标数据中含有少量的特异数据,特异数据会导致挖掘结果精度降低甚至结论不可信。因此,有效检测特异数据,常常成为发现问题进而改进决策的契机,对实际生产生活具有重要意义。产业的信息化带来了数据的多样化。针对特征不同的数据集,在一些专利中提出了检测特异数据的技术方案。噪声处理领域中,如何区分噪声样本、数据和极少数类样本及其数据一直是研究的热点问题。有的专利提出使用聚类的方法,依靠对离群值的敏感性来剔除异常值,取得了一定效果。如果噪声出现在两类样本的分类边界,那么难以避免影响到训练效果,进而这些噪声和少数样例混合在一起进入模型会极大地降低模型精度。医学诊断领域中,如何检测健康人群中少数患者的生理特征数据是该领域研究的热点问题。有的专利提出使用分类的方法,却没有进行过抽样或样本构造,而且少数类样本绝对数量少,因此其特征数据中包含的信息量也相应的较为不足,数据匮乏使得其规律难以被分类算法检测,也就无法支撑算法构建理想的分类器,容易出现欠拟合或过拟合的现象。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于数据集成的特异数据自适应检测方法,可以提高数据分类的稳定性和精确性。一种特异数据检测方法,包括如下步骤:步骤1、在目标数据集中切分出训练数据集;步骤2 ...
【技术保护点】
1.一种特异数据检测方法,其特征在于,包括如下步骤:步骤1、在目标数据集中切分出训练数据集;步骤2、判断训练数据集中样本数量是否大于设定阈值:如果不大于,使用支持向量机作为基分类器;如果大于,再判断训练数据集中正样本比例是否大于5%:如果不大于,则使用决策树算法作为基分类器;如果大于,使用逻辑回归算法作为基分类器;将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵
【技术特征摘要】
1.一种特异数据检测方法,其特征在于,包括如下步骤:步骤1、在目标数据集中切分出训练数据集;步骤2、判断训练数据集中样本数量是否大于设定阈值:如果不大于,使用支持向量机作为基分类器;如果大于,再判断训练数据集中正样本比例是否大于5%:如果不大于,则使用决策树算法作为基分类器;如果大于,使用逻辑回归算法作为基分类器;将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵其中,CTP表示真实为正样本而预测为正样本的代价;CFP表示真实为负样本而预测为正样本的代价;CTN表示真实为负样本而预测为负样本的代价;CFN表示真实为正样本而预测为负样本的代价;最后计算代价比步骤4、判断是否考虑错分代价:如果不考虑代价矩阵,再判断正样本比例是否大于5%:如果不大于,使用优化集成学习方法作为分类算法;如果大于,再判断是否要求最终的分类算法的运行时间低于运行时间Tb:如果不要求,选择欠抽样方法结合步骤2的基分类器作为分类算法;如果要求,使用集成学习方法作为分类算法;如果考虑代价矩...
【专利技术属性】
技术研发人员:宫琳,刘昉,张宏俊,陈西,高俊,杨奥,祝德刚,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。