一种特征填充方法、装置、计算设备及介质制造方法及图纸

技术编号:33537050 阅读:52 留言:0更新日期:2022-05-19 02:20
本申请实施例适用于机器学习技术领域,提供了一种特征填充方法、装置、计算设备及介质,该方法包括:根据目标特征的特征值是否缺失,将数据集中的样本分为第一未缺失样本和第一缺失样本;确定第一投票分类模型和第二投票分类模型,第一投票分类模型和第二投票分类模型中分别包括多个分类模型,分类模型具有超参数,超参数具有相应的参数值;根据第一未缺失样本和第一投票分类模型,确定第一缺失样本的第一预测结果;基于第二投票分类模型和第一预测结果,确定超参数的第一优选值;根据第一优选值和第一投票分类模型,对第一缺失样本进行特征填充。通过上述方法,能够利用未缺失样本对缺失样本进行填充,提高特征填充的准确性。提高特征填充的准确性。提高特征填充的准确性。

【技术实现步骤摘要】
一种特征填充方法、装置、计算设备及介质


[0001]本申请属于机器学习
,特别是涉及一种特征填充方法、装置、计算设备及介质。

技术介绍

[0002]在机器学习领域中,在进行模型训练时,需要对缺失值进行特征填充。
[0003]现有的对缺失值进行特征填充的方法包括自定义规则填充、算法填充、网络填充等,自定义规则填充可以包括0值填充、均值填充、众数填充;算法填充可以使用未缺失样本进行训练,然后对缺失样本的缺失值进行预测;网络填充可以基于用户社交网络,基于网络中的相邻用户特性进行填充。
[0004]现有算法填充策略的基本逻辑是先训练算法模型,然后基于模型对缺失值的预测进行填充。同样的,如果特征的缺失度过高、整体样本量过大,导致训练样本数量过少,那模型的预测效果肯定会非常差。
[0005]基于自定义规则填充、网络填充这两个方法,难以应对特征缺失度高、整体样本量大的场景。其基本逻辑还是规则主导数据,过于依赖经验性的判断,对于无法提供经验判断的缺失值,填充效果就难以保障。

技术实现思路

[0006]有鉴于此,本申本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征填充方法,其特征在于,包括:根据目标特征的特征值是否缺失,将数据集中的样本分为第一未缺失样本和第一缺失样本;确定第一投票分类模型和第二投票分类模型,所述第一投票分类模型和所述第二投票分类模型中分别包括多个分类模型,所述分类模型具有超参数,所述超参数具有相应的参数值;根据所述第一未缺失样本和所述第一投票分类模型,确定所述第一缺失样本的第一预测结果;基于所述第二投票分类模型和所述第一预测结果,确定所述超参数的第一优选值;根据所述第一优选值和所述第一投票分类模型,对所述第一缺失样本进行特征填充。2.如权利要求1所述方法,其特征在于,所述方法还包括:根据特征填充的结果得到第二未缺失样本和第二缺失样本;根据所述第二未缺失样本对所述第二缺失样本进行特征填充。3.如权利要求1或2所述的方法,其特征在于,所述根据所述第一未缺失样本和所述第一投票分类模型,确定所述第一缺失样本的第一预测结果,包括:采用所述第一未缺失样本对所述第一投票分类模型进行训练;采用训练后的所述第一投票分类模型对所述第一缺失样本进行预测,得到第一预测结果。4.如权利要求1或2所述的方法,其特征在于,所述超参数包括预测阈值,所述基于所述第二投票分类模型和所述第一预测结果,确定所述超参数的第一优选值,包括:基于所述超参数,计算所述第一预测结果的预测概率;确定所述预测概率大于所述预测阈值的第一预测结果为第一预测样本;采用所述第一预测样本和所述未缺失样本对所述第二投票分类模型进行训练,得到所述超参数的所述第一优选值。5.如权利要求4所述的方法,其特征在于,所述根据所述第一优选值和所述第一投票分类模型,对所述第一缺失样本进行特征填充,包括:将所述第一优选值作为所述第一投票分类模型的超参数的值;采用所述第一投票分类模型对所述第一缺失样本进行预测,得到第二预测结果;根据所述第二预测结果,对所述第一缺失样本进行特征填充。...

【专利技术属性】
技术研发人员:吴杨向彪赵占胜
申请(专利权)人:中和农信项目管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1