用于确定机器学习样本的特征重要性的方法及系统技术方案

技术编号:16501052 阅读:68 留言:0更新日期:2017-11-04 11:46
提供了一种用于确定机器学习样本的特征重要性的方法及系统。所述方法包括:(A)确定机器学习样本的基本特征子集;(B)确定机器学习样本的重要性待确定的多个目标特征子集;(C)针对所述多个目标特征子集之中的每一个目标特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集训练而成,附加子模型基于所述每一个目标特征子集训练而成;以及(D)根据复合机器学习模型的效果来确定所述多个目标特征子集的重要性。根据所述方法和系统,能够以较低的运算代价有效地得出各个目标特征子集的重要性。

Method and system for determining the importance of sample machine learning features

A method and system for determining the importance of the feature of machine learning samples are provided. The method includes: (A) to determine the basic feature subset of machine learning samples; (B) determining a plurality of target feature subset of machine learning the importance of the sample to be determined; (C) for each target feature subset of the plurality of target feature subset of the access to the corresponding composite machine learning model, which the composite machine learning model, including the basic framework and training according to the model and the additional sub model, the basic model of basic training based on feature subset and additional sub model based on the characteristics of each target subset is trained; and (D) to determine the importance of the plurality of the goal of feature subset according to the composite effect of machine learning model. According to the method and system, the importance of each target feature subset can be effectively obtained at a low computational cost.

【技术实现步骤摘要】
用于确定机器学习样本的特征重要性的方法及系统
本专利技术的示例性实施例总体说来涉及人工智能领域,更具体地说,涉及一种用于确定机器学习样本的特征重要性的方法及系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从海量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。通过对数据记录的属性信息进行诸如特征工程等处理,可产生包括各种特征的机器学习样本。实践中,机器学习模型的预测效果与模型的选择、可用的数据和样本特征的提取均有关系。此外,应用机器学习技术时还需要面对计算资源有限、样本数据不足等客观问题。因此,如何从原始数据记录的各个属性提取出机器学习样本的特征,将会对机器学习模型的效果带来很大的影响。相应地,不论从模型训练还是模型理解的角度来看,都很需要获知机器学习样本的各特征或特征组合的重要程度。例如,可根据基于XGBoost训练出的树模型,计算每个特征的期望分裂增益,然后计算特征重要性。上述方式虽然本文档来自技高网...
用于确定机器学习样本的特征重要性的方法及系统

【技术保护点】
一种用于确定机器学习样本的特征重要性的方法,包括:(A)确定机器学习样本的基本特征子集,其中,基本特征子集包括至少一个基本特征;(B)确定机器学习样本的重要性待确定的多个目标特征子集,其中,每一个目标特征子集包括至少一个目标特征;(C)针对所述多个目标特征子集之中的每一个目标特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集训练而成,附加子模型基于所述每一个目标特征子集训练而成;以及(D)根据复合机器学习模型的效果来确定所述多个目标特征子集的重要性。

【技术特征摘要】
1.一种用于确定机器学习样本的特征重要性的方法,包括:(A)确定机器学习样本的基本特征子集,其中,基本特征子集包括至少一个基本特征;(B)确定机器学习样本的重要性待确定的多个目标特征子集,其中,每一个目标特征子集包括至少一个目标特征;(C)针对所述多个目标特征子集之中的每一个目标特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集训练而成,附加子模型基于所述每一个目标特征子集训练而成;以及(D)根据复合机器学习模型的效果来确定所述多个目标特征子集的重要性。2.如权利要求1所述的方法,其中,在步骤(D)中,根据复合机器学习模型在相同数据集上的效果之间的差异来确定所述多个目标特征子集的重要性。3.如权利要求1所述的方法,其中,所述目标特征基于基本特征而产生。4.如权利要求1所述的方法,其中,所述目标特征为通过对至少一个基本特征进行组合而得到的组合特征。5.如权利要求1所述的方法,其中,在步骤(C)中,通过并行地训练多个复合机器学习模型来获取与每一个目标特征子集相应的复合机器学习模型。6.如权利要求1所述的方法,其中,目标特征子集包括通过对至少一个基本特征进行组合而得到的一个组合特征,并且,所述方法还包括:(E)以图形化方式向用户展示确定的各...

【专利技术属性】
技术研发人员:戴文渊陈雨强杨强罗远飞涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1