人群绩效特征预测中的缺失特征处理方法及装置制造方法及图纸

技术编号:20329727 阅读:14 留言:0更新日期:2019-02-13 06:06
本发明专利技术公开了一种人群绩效预测中的缺失特征处理方法及装置,涉及信息技术领域,主要目的在于能够避免缺失特征的填补存在偏差,避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,从而能够训练得预测模型的预测精度。所述方法包括:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征;将所述缺失特征填补到所述人群绩效预测训练集中。本发明专利技术适用于人群绩效预测中的缺失特征的处理。

【技术实现步骤摘要】
人群绩效特征预测中的缺失特征处理方法及装置
本专利技术涉及信息
,尤其是涉及一种人群绩效特征预测中的缺失特征处理方法及装置。
技术介绍
近年来,很多行业开始重视人群绩效,尤其是开始重视识别人群绩效等级,通过识别出目标人群并对目标人群进行奖励,能够大大促进企业整体效益的提升。目前通常可以通过训练人群绩效预测模型预测人群绩效等级,在训练预测模型时,训练集的数据量越大训练得到的预测模型预测精度越高。然而,在实际应用中,能够用来训练人群绩效等级预测模型的完整训练集较少,大部分情况下训练集会存在缺失特征。因此,为了提升预测模型的预测精度,通常需要填补或者补全缺失特征。目前,通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征。然而,上述填补方式的填补效果受限于特征分布状态,且缺失特征通常为非随机缺失特征、非随机缺失特征的缺失与否与特征本身存在关联。例如,在收入调查中,受访人群中高收入人群或者低收入人群都不会填写具体收入,因此收入水平的缺失与收入水平自身存在关联。若通过上述方式填补缺失特征,会造成缺失特征的填补存在偏差,从而造成,进而造成训练得预测模型的预测精度较低。
技术实现思路
本专利技术提供了一种人群绩效特征预测中的缺失特征处理方法及装置,主要在于能够避免缺失特征的填补存在偏差,避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,从而能够训练得预测模型的预测精度。根据本专利技术的第一个方面,提供一种人群绩效预测中的缺失特征处理方法,包括:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。根据本专利技术的第二个方面,提供一种人群绩效预测中的缺失特征处理装置,包括获取单元,用于获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;估计单元,用于根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;填补单元,用于将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。根据本专利技术的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。根据本专利技术的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。本专利技术提供的一种人群绩效特征预测中的缺失特征处理方法及装置,与目前通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征相比,本专利技术能够获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;能够根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值。与此同时,能够将估计后的缺失特征对应的数值填补到所述人群绩效预测训练集中,从而能够实现基于缺失特征对应的预设混合高斯模型填补缺失数据,由于所述预设混合高斯模型是由所述缺失特征对应的多元高斯分布组成,因此能够保证填补后的缺失特征反映其分布状态且与本身相关,能够避免缺失特征的填补存在偏差,能够避免经过训练得预测模型的预测结果与相应特征间的关联存在偏差,进而能够提升训练得预测模型的预测精度。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了本专利技术实施例提供的一种人群绩效预测中的缺失特征处理方法流程图;图2示出了本专利技术实施例提供的另一种人群绩效预测中的缺失特征处理方法流程图;图3示出了本专利技术实施例提供的一种人群绩效预测中的缺失特征处理装置的结构示意图;图4示出了本专利技术实施例提供的另一种人群绩效预测中的缺失特征处理装置的结构示意图;图5示出了本专利技术实施例提供的一种计算机设备的实体结构示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。如
技术介绍
,目前,通常采用传统填补方法,如特殊值插补、热卡插补等方式填补人群绩效预测训练集中的缺失特征。然而,上述填补方式的填补效果受限于特征分布状态,且缺失特征通常为非随机缺失特征、非随机缺失特征的缺失与否与特征本身存在关联。例如,在收入调查中,受访人群中高收入人群或者低收入人群都不会填写具体收入,因此收入水平的缺失与收入水平自身存在关联。若通过上述方式填补缺失特征,会造成缺失特征的填补存在偏差,从而造成,进而造成训练得预测模型的预测精度较低。为了解决上述问题,本专利技术实施例提供了一种人群绩效预测中的缺失特征处理方法,如图1所示,所述方法包括:101、获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型。其中,所述预设混合高斯模型可以由所述缺失特征对应的多元高斯分布组成。所述训练集可以包括人群绩效特征和人群绩效等级,本专利技术实施例中的缺失特征可以为人群绩效特征中的特征。所述人群绩效特征可以包括但不限于:月均学习课程数、工作地址经纬度、单月内互联网交易产品数、半年内互联网交易等级。例如,有100条训练样本,其中有40条训练样本中没有半年内互联网交易等级,则可以确认40条训练样本中的“半年内互联网交易等级”为缺失特征。已有特征可以为其中60条训练样本中的“月均学习课程数、工作地址经纬度、单月内互联网交易产品数、半年内互联网交易等级”和其中“40条训练样本中的“月均学习课程数、工作地址经纬度、单月内互联网交易产品数”。需要说明的是,所述预设混合高斯模型的概率分布可以如下方式表示:若本专利技术实施例中的缺失特征为“半年内互联网交易等级”,则所述多元高斯分布可以为多个半年内互联网交易等级的类别,根据上述公式,半年内互联网交易等级的类别具体可以为m个。102、根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值。其中,所述最大期望算法可以为一种迭代算法,可以包括极大似然估计计算和期望计算,所述极大似然估计计算和所述期望计算可以为迭代进行的。本专利技术实施例可以通过已有特征和极大似然估计计算迭代计算所述预设混合高斯模型的各元高斯分布的分布参数,然后通过期望计算和迭代计算出的分布参数,计算所述缺失特征属于各元高斯本文档来自技高网
...

【技术保护点】
1.一种人群绩效预测中的缺失特征处理方法,其特征在于,包括:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。

【技术特征摘要】
1.一种人群绩效预测中的缺失特征处理方法,其特征在于,包括:获取人群绩效预测训练集中的已有特征以及缺失特征对应的预设混合高斯模型,所述预设混合高斯模型由所述缺失特征对应的多元高斯分布组成;根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值;将所述缺失特征对应的数值填补到所述人群绩效预测训练集中。2.根据权利要求1所述的方法,其特征在于,所述最大期望算法包括极大似然估计计算和期望计算,根据所述已有特征和所述预设混合高斯模型的最大期望算法,估计所述缺失特征对应的数值,包括:根据所述已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始分布参数;根据所述初始分布参数及所述期望计算,初步估计所述缺失特征所属的高斯分布;根据所述已有特征、所述所属的高斯分布和所述极大似然估计计算,迭代更新所述各元高斯分布的分布参数,并迭代更新所述缺失特征所属的高斯分布;当迭代更新的分布参数收敛时,获取根据收敛的分布参数和所述期望计算估计的高斯分布,并根据最后估计的高斯分布估计所述缺失特征对应的数值。3.根据权利要求2所述的方法,其特征在于,所述根据所述初始分布参数、与所述缺失特征对应的已有特征及所述期望计算,初步估计所述缺失特征所属的高斯分布,包括:根据所述初始分布参数及所述期望计算,初步估计所述缺失特征属于各元高斯分布的概率;根据所述属于各元高斯分布的概率,初步估计所述缺失特征所属的高斯分布。4.根据权利要求2所述的方法,其特征在于,所述训练集包括特征完整的第一训练集和含缺失特征的第二训练集,所述已有特征包括所述第一训练集中第一已有特征、第二已有特征和所述第二训练集中的第三已有特征,所述第一已有特征与所述第三已有特征相对应,所述第二已有特征与所述缺失特征相对应;所述根据所述已有特征和所述极大似然估计计算,估计所述预设混合高斯模型的各元高斯分布的初始分布参数,包括:根据所述第一已有...

【专利技术属性】
技术研发人员:金戈徐亮肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1