确定机器学习样本的特征重要性的方法及系统技术方案

技术编号：17940410 阅读：26 留言：0更新日期：2018-05-15 20:40

提供了一种确定机器学习样本的特征重要性的方法及系统，所述方法包括：(A)获取历史数据记录，其中，所述历史数据记录包括关于机器学习问题的标记和至少一个属性信息；(B)利用获取的历史数据记录，训练至少一个特征池模型，其中，特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型；(C)获取所述至少一个特征池模型的效果，并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性，其中，在步骤(B)中，通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。通过所述方法和系统，可有效确定机器学习样本中各个特征的重要性。

Method and system for determining the importance of machine learning samples

A method and system for determining the feature importance of a machine learning sample include: (A) obtaining historical data records, in which the historical data records include markers and at least one attribute information about machine learning problems; (B) training at least one feature pool using the acquired historical data record. Model, in which the feature pool model refers to a machine learning model that provides a prediction result of a machine learning problem based on at least part of the characteristics of each of the described features; (C) obtaining the effect of the at least one characteristic pool model and determining the described according to the effect of the obtained at least one characteristic pool model. The importance of a feature, in which, in step (B), the feature pool model is trained by performing discrete operations on at least one continuous feature of the at least one of the at least one part of the feature. Through the method and system, the importance of each feature in machine learning samples can be effectively determined.

全部详细技术资料下载

【技术实现步骤摘要】
确定机器学习样本的特征重要性的方法及系统
本专利技术总体说来涉及人工智能领域，更具体地说，涉及一种针对机器学习样本的特征重要性确定方法及系统。
技术介绍
随着海量数据的出现，人工智能技术得到了迅速发展，而为了从大量数据中挖掘出价值，需要基于数据记录来产生适用于机器学习的样本。这里，每条数据记录可被看做关于一个事件或对象的描述，对应于一个示例或样例。在数据记录中，包括反映事件或对象在某方面的表现或性质的各个事项，这些事项可称为“属性”。实践中，机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。如何从原始数据记录的各个属性提取出机器学习样本的特征，将会对机器学习模型的效果带来很大的影响。相应地，不论从模型训练还是模型理解的角度来看，都很需要获知机器学习样本的各个特征的重要程度。例如，可根据基于XGBoost训练出的树模型，计算每个特征的期望分裂增益，然后计算特征重要性。上述方式虽然能考虑特征之间的相互作用，但训练代价高，且不同参数对特征重要性的影响较大。实际上，特征的重要性难以直观确定，往往需要技术人员不仅掌握机器学习的知识，还需要对实际预测问题有深入的理解，而预测问题往往结合着不同行业的不同实践经验，导致很难达到满意的效果。
技术实现思路
本专利技术的示例性实施例旨在克服现有技术中难以有效地确定机器学习样本的各个特征的重要性的缺陷。根据本专利技术的示例性实施例，提供一种确定机器学习样本的各个特征的重要性的方法，包括：(A)获取历史数据记录，其中，所述历史数据记录包括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个属性信息；(B)利...
确定机器学习样本的特征重要性的方法及系统

【技术保护点】
一种确定机器学习样本的各个特征的重要性的方法，包括：(A)获取历史数据记录，其中，所述历史数据记录包括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个属性信息；(B)利用获取的历史数据记录，训练至少一个特征池模型，其中，特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型；(C)获取所述至少一个特征池模型的效果，并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性，其中，在步骤(B)中，通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。

【技术特征摘要】
1.一种确定机器学习样本的各个特征的重要性的方法，包括：(A)获取历史数据记录，其中，所述历史数据记录包括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个属性信息；(B)利用获取的历史数据记录，训练至少一个特征池模型，其中，特征池模型是指基于所述各个特征之中的至少一部分特征来提供关于机器学习问题的预测结果的机器学习模型；(C)获取所述至少一个特征池模型的效果，并根据获取的所述至少一个特征池模型的效果来确定所述各个特征的重要性，其中，在步骤(B)中，通过对所述至少一部分特征之中的至少一个连续特征执行离散化运算来训练特征池模型。2.如权利要求1所述的方法，其中，在步骤(C)中，根据特征池模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定所述特征池模型所基于的相应特征的重要性，其中，变换测试数据集是指通过对原始测试数据集中的其重要性待确定的目标特征的取值替换为以下项之一而获得的数据集：零值、随机数值、通过将目标特征的原始取值扰乱顺序后得到的值。3.如权利要求1所述的方法，其中，所述至少一个特征池模型包括多个基于不同特征组来提供关于机器学习问题的预测结果的机器学习模型，其中，在步骤(C)中，根据所述至少一个特征池模型在原始测试数据集上的效果之间的差异来确定所述各个特征的重要性。4.如权利要求3所述的方法，其中，所述至少一个特征池模型包括一个或多个主特征池模型以及分别与每个主特征池模型相应的至少一个子特征池模型，其中，子特征池模型是指基于与其相应的主特征池模型所基于的特征之中除了其重要性待确定的目标特征之外的剩余特征来提供关于机器学习问题的预测结果的机器学习模型，其中，在步骤(C)中，根据主特征池模型和与其相应的各个子特征池模型在原始测试数据集上的效果之间的差异来确定相应的目标特征的重要性。5.如权利要求3所述的方法，其中，所述至少一个特征池模型包括多个单特征模型，其中，单特征模型是指基于所述各个特征之中的其重要性待确定的目标特征来提供关于机器学习问题的预测结果的机器学习模型，其中，在步骤(C)中，根据单特征模型在原始测试数据集上的效果之间的差异来确定相应的目标特征的重要性。6....

【专利技术属性】
技术研发人员：罗远飞，涂威威，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人