生成机器学习样本的组合特征的方法及系统技术方案

技术编号:17304860 阅读:25 留言:0更新日期:2018-02-18 23:18
提供了一种生成机器学习样本的组合特征的方法及系统。所述方法包括:获取历史数据记录,其中,历史数据记录包括多个属性信息;按照搜索策略,在基于多个属性信息生成的至少一个特征之间迭代地进行特征组合以生成候选组合特征,并选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果选择重要性较高的至少一个候选组合特征作为目标组合特征。可在使用较少运算资源的情况下有效地实现自动特征组合,提升模型效果。

Methods and systems for generating combination features of machine learning samples

A method and system for generating the combined features of a machine learning sample is provided. The method comprises: obtaining historical data records, the historical data records including multiple attribute information; according to the search strategy, between at least one feature of multiple attribute information generated iteratively to generate candidate feature combination combination based on the features, and select the target combination features as machine learning features, including the sample for each iteration, the importance of pre sorting, each candidate set of candidate combination features in combination characteristic; according to the results of pre sorting to select a subset of candidate combination features composed of candidate combination feature pool; and then sorted by the importance of each candidate combination feature candidate combination feature pool in the selection according to the ranking results; at least one candidate combination feature of high importance as the target feature combination. The automatic feature combination can be effectively implemented in the case of less operational resources, and the effect of the model can be improved.

【技术实现步骤摘要】
生成机器学习样本的组合特征的方法及系统
本专利技术总体说来涉及人工智能领域,更具体地说,涉及一种生成机器学习样本的组合特征的方法及系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,可通过改进特征提取方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果的恶化。然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将不同特征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另一方面,从运算效率方面考虑,也难以有效本文档来自技高网...
生成机器学习样本的组合特征的方法及系统

【技术保护点】
一种生成机器学习样本的组合特征的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。

【技术特征摘要】
1.一种生成机器学习样本的组合特征的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。2.如权利要求1所述的方法,其中,基于第一数量的历史数据记录进行预排序,基于第二数量的历史数据记录进行再排序,并且,第二数量不少于第一数量。3.如权利要求1所述的方法,其中,候选组合特征集合包括在当前轮迭代中生成的候选组合特征;或者,候选组合特征集合包括在当前轮迭代中生成的候选组合特征以及在先前轮迭代中生成的未被选择作为目标组合特征的候选组合特征。4.如权利要求1所述的方法,其中,通过将当前轮迭代中选择的目标组合特征与所述至少一个特征进行组合来生成下一轮迭代的候选组合特征;或者,通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候选组合特征。5.如权利要求1所述的方法,其中,通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序复合机器学习模型,基于各个预排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序复合机器学习模型包括基于提升框架的预排序基本子模型和预排序附加子模型,其中,预排序基本子模型对应预排序基本特征子集,预排序附加子模型对应所述每一个候选组合特征。6.如权利要求1所述的方法,其中,通过以下处理来进行再排序:针对候选...

【专利技术属性】
技术研发人员:杨强陈雨强戴文渊罗远飞涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1