【技术实现步骤摘要】
用于机器学习算法的数据预处理方法及相关设备
本公开涉及数据处理
,尤其涉及一种用于机器学习算法的数据预处理方法及相关设备。
技术介绍
随着机器学习技术的发展,越来越多行业的对机器学习技术的需求也越来越迫切。然而在数据挖掘、用户画像等基于结构化数据的机器学习算法开发中,会出现数据采集时会有一定程度的数据丢失,如果不进行筛选直接进行机器学习算法的开发,会造成算法训练时由于无效数据导致训练时间增加,或者性能下降,甚至存在缺失值时无法进行训练,对于缺失值的填充,目前常采用头脑风暴,或咨询相关专家进行填充,造成大量人力物力的浪费。现有技术中通过主成分分析(PCA)降维法,卷积神经网络(CNN)来减少无效特征对结果的影响,前者产生的新特征很难与实际应用场景之间建立,并且需要手动设置、调整累积可解释方差的阈值;后者生物学基础支持不足,没有记忆功能,CNN全连接模式过于冗余、低效;此外上述两种方法均存在:当数据集存在缺失值时,降维方法会失效的问题。
技术实现思路
有鉴于此,本公开的目的在于提出一种用于机器学习算法的 ...
【技术保护点】
1.一种用于机器学习算法的数据预处理方法,包括:/n获取待处理的原始数据;/n基于所述原始数据每个特征的缺失值进行筛查,以得到第一筛查数据;/n基于所述第一筛查数据中每个特征的相同值进行筛查,以确定第二筛查数据;/n将所述第二筛查数据中每个特征的缺失值进行填充,以得到完整数据;/n将所述完整数据按照预设的标准化处理规则进行标准化处理,以获取所述标准化处理后的完整数据。/n
【技术特征摘要】
1.一种用于机器学习算法的数据预处理方法,包括:
获取待处理的原始数据;
基于所述原始数据每个特征的缺失值进行筛查,以得到第一筛查数据;
基于所述第一筛查数据中每个特征的相同值进行筛查,以确定第二筛查数据;
将所述第二筛查数据中每个特征的缺失值进行填充,以得到完整数据;
将所述完整数据按照预设的标准化处理规则进行标准化处理,以获取所述标准化处理后的完整数据。
2.根据权利要求1所述的方法,其中,所述原始数据包括离散数据和连续数据,所述离散数据和连续数据均包括多个特征。
3.根据权利要求2所述的方法,其中,所述基于所述原始数据每个特征的缺失值进行筛查包括:
对所述原始数据中每个特征的缺失值数量进行统计,以确定所述缺失值在所属特征总数据量中的第一占比;
响应于确定所述第一占比大于预设的第一阈值,将包含所述缺失值的特征删除。
4.根据权利要求3所述的方法,其中,基于所述第一筛查数据中每个特征的相同值进行筛查,包括:
对所述第一筛查数据中的所述离散数据的每个特征执行以下操作:
基于每个相同值的数量,确定所述相同值在所属特征包含所述缺失值的总数据量中的第二占比;
响应于确定所述第二占比大于预设的第二阈值,将包含所述相同值的特征删除;否则
根据任意一个相同值的数量,确定所述相同值在全部相同值总数据量中的第三占比;
响应于确定所述第三占比大于预设的第三阈值,将包含所述相同值的特征删除。
5.根据权利要求3所述的方法,其中,基于所述第一筛查数据中每个特征的相同值进行筛查,还包括:
对所述第一筛查数据中的所述连续数据的每个特征执行以下操作:
基于每个相同值的数量,确定所述相同值在所属特征包含所述缺失值的总数据量中的第四占比;
响应于确定所述第四占比大于预设的第四阈值,将包含所述相同值特征删除。
6.根据权利要求4所述的方法,其中,所述将所述第二筛查数据中每个特征的缺失值进行填充,包括:
对于所述第二筛查数据中的所述离散数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。