【技术实现步骤摘要】
生成机器学习样本的组合特征的方法及系统
本专利技术总体说来涉及人工智能领域,更具体地说,涉及一种生成机器学习样本的组合特征的方法及系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,可通过改进特征提取方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果的恶化。然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将不同特征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另一方面,从运算效率 ...
【技术保护点】
一种生成机器学习样本的组合特征的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
【技术特征摘要】
1.一种生成机器学习样本的组合特征的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。2.如权利要求1所述的方法,其中,候选组合特征集合包括在当前轮迭代中生成的候选组合特征;或者,候选组合特征集合包括在当前轮迭代中生成的候选组合特征以及在先前轮迭代中生成的未被选择作为目标组合特征的候选组合特征。3.如权利要求1所述的方法,其中,通过将当前轮迭代中选择的目标组合特征与所述至少一个离散特征进行组合来生成下一轮迭代的候选组合特征;或者,通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候选组合特征。4.如权利要求1所述的方法,其中,所述至少一个离散特征包括通过以下处理从基于所述多个属性信息产生的连续特征转换而来的离散特征:针对每一个连续特征,执行至少一种分箱运算,以生成由至少一个分箱特征组成的离散特征,其中,每种分箱运算对应一个分箱特征。5.如权利要求4所述的方法,其中,所述至少一种分箱运算是针对每一轮迭代或针对所有轮迭代从预定数量的分箱运算中选择的,其中,与选择的分箱运算对应的分箱特征的重要性不低于与未被选择的分箱运算对应的分箱特征的重要性。6.如权利要求5所述的方法,其中,通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱复合机器学习模型,基于各个分箱复合机器学习模型的效果来确定各个分箱特征的重要性...
【专利技术属性】
技术研发人员:戴文渊,杨强,陈雨强,罗远飞,涂威威,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。