【技术实现步骤摘要】
自动生成组合特征的方法及系统
本专利技术总体说来涉及人工智能领域,更具体地讲,涉及一种自动生成组合特征的方法及系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,一方面,可通过改进特征提取方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果的恶化。然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将特征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另一方面,也难以从运算角度方面确定有 ...
【技术保护点】
1.一种自动生成组合特征的方法,包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
【技术特征摘要】
1.一种自动生成组合特征的方法,包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。2.如权利要求1所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征由所述多个关键单位特征之中对应的部分关键单位特征组合而成。3.如权利要求2所述的方法,其特征在于,根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。4.如权利要求1所述的方法,其特征在于,所述自动特征组合算法用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。5.如权利要求1所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:基于特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到所述至少一个组合特征。6.如权利要求1或5所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与所述自动特征组合算法对...
【专利技术属性】
技术研发人员:彭聆然,高晓伟,孙迪,康执玺,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。