确定机器学习样本的特征重要性的方法及系统技术方案

技术编号:17940410 阅读:26 留言:0更新日期:2018-05-15 20:40
提供了一种确定机器学习样本的特征重要性的方法及系统,所述方法包括:(A)获取历史数据记录,其中,所述历史数据记录包括关于机器学习问题的标记和至少一个属性信息;(B)利用获取的历史数据记录,训练至少一个特征池模型,其中,特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型;(C)获取所述至少一个特征池模型的效果,并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性,其中,在步骤(B)中,通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。通过所述方法和系统,可有效确定机器学习样本中各个特征的重要性。

Method and system for determining the importance of machine learning samples

A method and system for determining the feature importance of a machine learning sample include: (A) obtaining historical data records, in which the historical data records include markers and at least one attribute information about machine learning problems; (B) training at least one feature pool using the acquired historical data record. Model, in which the feature pool model refers to a machine learning model that provides a prediction result of a machine learning problem based on at least part of the characteristics of each of the described features; (C) obtaining the effect of the at least one characteristic pool model and determining the described according to the effect of the obtained at least one characteristic pool model. The importance of a feature, in which, in step (B), the feature pool model is trained by performing discrete operations on at least one continuous feature of the at least one of the at least one part of the feature. Through the method and system, the importance of each feature in machine learning samples can be effectively determined.

【技术实现步骤摘要】
确定机器学习样本的特征重要性的方法及系统
本专利技术总体说来涉及人工智能领域,更具体地说,涉及一种针对机器学习样本的特征重要性确定方法及系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。实践中,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。如何从原始数据记录的各个属性提取出机器学习样本的特征,将会对机器学习模型的效果带来很大的影响。相应地,不论从模型训练还是模型理解的角度来看,都很需要获知机器学习样本的各个特征的重要程度。例如,可根据基于XGBoost训练出的树模型,计算每个特征的期望分裂增益,然后计算特征重要性。上述方式虽然能考虑特征之间的相互作用,但训练代价高,且不同参数对特征重要性的影响较大。实际上,特征的重要性难以直观确定,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。
技术实现思路
本专利技术的示例性实施例旨在克服现有技术中难以有效地确定机器学习样本的各个特征的重要性的缺陷。根据本专利技术的示例性实施例,提供一种确定机器学习样本的各个特征的重要性的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个属性信息;(B)利用获取的历史数据记录,训练至少一个特征池模型,其中,特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型;(C)获取所述至少一个特征池模型的效果,并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性,其中,在步骤(B)中,通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。可选地,在所述方法中,在步骤(C)中,根据特征池模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定所述特征池模型所基于的相应特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的目标特征的取值替换为以下项之一而获得的数据集:零值、随机数值、通过将目标特征的原始取值扰乱顺序后得到的值。可选地,在所述方法中,所述至少一个特征池模型包括一个全部特征模型,其中,全部特征模型是指基于所述各个特征之中的全部特征来提供关于机器学习问题的预测结果的机器学习模型。可选地,在所述方法中,所述至少一个特征池模型包括多个基于不同特征组来提供关于机器学习问题的预测结果的机器学习模型,其中,在步骤(C)中,根据所述至少一个特征池模型在原始测试数据集上的效果之间的差异来确定所述各个特征的重要性。可选地,在所述方法中,所述至少一个特征池模型包括一个或多个主特征池模型以及分别与每个主特征池模型相应的至少一个子特征池模型,其中,子特征池模型是指基于与其相应的主特征池模型所基于的特征之中除了其重要性待确定的目标特征之外的剩余特征来提供关于机器学习问题的预测结果的机器学习模型,其中,在步骤(C)中,根据主特征池模型和与其相应的各个子特征池模型在原始测试数据集上的效果之间的差异来确定相应的目标特征的重要性。可选地,在所述方法中,所述至少一个特征池模型包括多个单特征模型,其中,单特征模型是指基于所述各个特征之中的其重要性待确定的目标特征来提供关于机器学习问题的预测结果的机器学习模型,其中,在步骤(C)中,根据单特征模型在原始测试数据集上的效果之间的差异来确定相应的目标特征的重要性。可选地,在所述方法中,所述离散化运算包括基本分箱运算和至少一个附加运算。可选地,在所述方法中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。可选地,在所述方法中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。可选地,在所述方法中,基本分箱运算和附加分箱运算分别对应于不同宽度的等宽分箱运算或不同深度的等深分箱。可选地,在所述方法中,所述不同宽度或不同深度在数值上构成等比数列或等差数列。可选地,在所述方法中,执行基本分箱运算和/或附加分箱运算的步骤包括:额外设置离群箱,使得具有离群值的连续特征被分到所述离群箱。可选地,在所述方法中,在步骤(B)中,基于对数几率回归(logisticregressive)算法来训练特征池模型。可选地,在所述方法中,特征池模型的效果包括特征池模型的AUC。可选地,在所述方法中,所述原始测试数据集由获取的历史数据记录构成,其中,在步骤(B)中,将获取的历史数据记录划分为多组历史数据记录以逐步地训练各个特征池模型,并且,步骤(B)还包括:使用经过当前组历史数据记录训练后的特征池模型来针对下一组历史数据记录执行预测以得到与所述下一组历史数据记录相应的分组AUC,并综合各个分组AUC来得到特征池模型的AUC,其中,在得到与所述下一组历史数据记录相应的分组AUC之后,利用所述下一组历史数据记录来继续训练经过所述当前组历史数据记录训练后的特征池模型。可选地,在所述方法中,在步骤(B)中,在使用经过当前组历史数据记录训练后的特征池模型来针对下一组历史数据记录执行预测时,当所述下一组历史数据记录包括缺少用于产生特征池模型所基于的至少一部分特征的属性信息的缺失历史数据记录时,基于以下处理之一来得到与所述下一组历史数据记录相应的分组AUC:仅利用所述下一组历史数据记录中除了缺失历史数据记录以外的其他历史数据记录的预测结果来计算分组AUC;利用所述下一组历史数据记录的全部历史数据记录的预测结果来计算分组AUC,其中,将缺失历史数据记录的预测结果设置为默认值,所述默认值基于预测结果的取值范围来确定或基于获取的历史数据记录的标记分布来确定;将利用所述下一组历史数据记录中除了缺失历史数据记录以外的其他历史数据记录的预测结果计算出的AUC与所述其他历史数据记录在所述下一组历史数据记录中所占的比例相乘来得到分组AUC。可选地,在所述方法中,在步骤(B)中,在基于对数几率回归算法来训练特征池模型时,针对连续特征设置的正则项不同于针对非连续特征设置的正则项。可选地,在所述方法中,步骤(B)还包括:向用户提供用于配置特征池模型的以下项目之中的至少一个项目的界面:特征池模型所基于的至少一部分特征、特征池模型的算法种类、特征池模型的算法参数、离散化运算的运算种类、离散化运算的运算参数,并且,在步骤(B)中,根据用户通过所述界面配置的项目来分别训练特征池模型。可选地,在所述方法中,在步骤(B)中,响应于用户关于确定特征重要性的指示来向用户提供所述界面。可选地,所述方法还包括:(D)以图形化方式向用户展示确定的各个特征的重要性。可选地,在所述方法中,在步骤(D)中,按照特征的重要性的顺序来展示各个特征,并且/或者,对所述各个特征之中的一部分特征进行突出显示,其中,所述一部分特征包括与高重要本文档来自技高网...
确定机器学习样本的特征重要性的方法及系统

【技术保护点】
一种确定机器学习样本的各个特征的重要性的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个属性信息;(B)利用获取的历史数据记录,训练至少一个特征池模型,其中,特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型;(C)获取所述至少一个特征池模型的效果,并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性,其中,在步骤(B)中,通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。

【技术特征摘要】
1.一种确定机器学习样本的各个特征的重要性的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个属性信息;(B)利用获取的历史数据记录,训练至少一个特征池模型,其中,特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型;(C)获取所述至少一个特征池模型的效果,并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性,其中,在步骤(B)中,通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。2.如权利要求1所述的方法,其中,在步骤(C)中,根据特征池模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定所述特征池模型所基于的相应特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的目标特征的取值替换为以下项之一而获得的数据集:零值、随机数值、通过将目标特征的原始取值扰乱顺序后得到的值。3.如权利要求1所述的方法,其中,所述至少一个特征池模型包括多个基于不同特征组来提供关于机器学习问题的预测结果的机器学习模型,其中,在步骤(C)中,根据所述至少一个特征池模型在原始测试数据集上的效果之间的差异来确定所述各个特征的重要性。4.如权利要求3所述的方法,其中,所述至少一个特征池模型包括一个或多个主特征池模型以及分别与每个主特征池模型相应的至少一个子特征池模型,其中,子特征池模型是指基于与其相应的主特征池模型所基于的特征之中除了其重要性待确定的目标特征之外的剩余特征来提供关于机器学习问题的预测结果的机器学习模型,其中,在步骤(C)中,根据主特征池模型和与其相应的各个子特征池模型在原始测试数据集上的效果之间的差异来确定相应的目标特征的重要性。5.如权利要求3所述的方法,其中,所述至少一个特征池模型包括多个单特征模型,其中,单特征模型是指基于所述各个特征之中的其重要性待确定的目标特征来提供关于机器学习问题的预测结果的机器学习模型,其中,在步骤(C)中,根据单特征模型在原始测试数据集上的效果之间的差异来确定相应的目标特征的重要性。6....

【专利技术属性】
技术研发人员:罗远飞涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1