The invention relates to a method for detecting outliers in mass data based on machine learning. Based on the data set, a machine learning model with bias fitting is established, which allows the model to learn the general characteristics of data, and then uses the machine learning model trained to predict the data and compare the deviation between the predicted value and the true value. According to the deviation of training data, we select a reliable threshold and mark the data that deviate from the threshold to be abnormal, so as to provide higher quality data for subsequent data analysis and data mining.
【技术实现步骤摘要】
一种基于机器学习的海量数据中检测异常值的方法
本专利技术涉及一种基于机器学习的海量数据中检测异常值的方法,用于海量数据中的异常值检测,可以清洗脏数据,为后续的回归分析任务提供更高质量的数据,提升分析精度。
技术介绍
在处理数据过程中,时常发现部分数据值偏离预期或大量统计数据结果的情况。通常,这部分数据被定义为异常值,即:样本数据集中明显偏离所属样本中其余观测值的数值,也可以称为异常数据,离群值。随着数据总量的不断增加,异常值的出现不可避免。对于人工采集的数据,采集人员的疲惫、马虎等有意、无意的原因都有可能导致数据采集错误;对于机器采集的数据,机器故障、操作失误等也会造成异常数据的产生。这些异常数据隐藏在海量数据中往往难以发现,但是,这些异常数据会给整个数据分析、数据挖掘过程带来无法预估的影响,通常会降低数据分析的精度和性能。机器学习是指计算机利用已有的数据(经验)得出某种模型,并利用此模型预测未来的过程。机器学习分为深度学习、增强学习、迁移学习、多任务学习、规则学习等。根据输入数据是否有标签,机器学习又分为有监督学习和无监督学习。深度学习是目前机器学习方法中最为热 ...
【技术保护点】
一种基于机器学习的海量数据中检测异常值的方法,其特征在于,包括以下步骤:步骤1、获取数据集,确定数据集中的数据类型,并对数据集进行回归分析,根据不同的数据类型和回归分析的特性,选择合适的机器学习器;步骤2、将整个数据集输入机器学习器中进行简单训练,使机器学习器尽可能多的学习数据集中普遍特征的同时,尽可能少的学习数据个案中的非普遍特征,其中:简单训练包括以下步骤:步骤2.1、在输入的数据集上构建特征,随后将构建完成的特征规范化;步骤2.2、设定机器学习器的参数;步骤2.3、将特征输入到机器学习器,训练机器学习器至偏欠拟合的状态以减少对非普遍特征的学习,得到一个训练好的弱学习器 ...
【技术特征摘要】
1.一种基于机器学习的海量数据中检测异常值的方法,其特征在于,包括以下步骤:步骤1、获取数据集,确定数据集中的数据类型,并对数据集进行回归分析,根据不同的数据类型和回归分析的特性,选择合适的机器学习器;步骤2、将整个数据集输入机器学习器中进行简单训练,使机器学习器尽可能多的学习数据集中普遍特征的同时,尽可能少的学习数据个案中的非普遍特征,其中:简单训练包括以下步骤:步骤2.1、在输入的数据集上构建特征,随后将构建完成的特征规范化;步骤2.2、设定机器学习器的参数;步骤2.3、将特征输入到机器学习器,训练机器学习器至偏欠拟合的状态以减少对非普遍特征的学习,得到一个训练好的弱学习器;步骤3、使用训练好的弱学习器对数据集中的所有个案进行预测,得到每个个案的预测值;步骤4、将所有个案的预测值与真实值进行比较,设置容差大小,如果个案的真实值与预测值的差异大于容差,则认定为异常值,如果个案的真实值与预测值的差异小于容差,则认定为正常值;步骤5...
【专利技术属性】
技术研发人员:裘炜毅,李明敏,
申请(专利权)人:上海元卓信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。