自动生成组合特征的方法及系统技术方案

技术编号:20161149 阅读:38 留言:0更新日期:2019-01-19 00:13
提供一种自动生成组合特征的方法及系统,所述方法包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。采用上述根据本发明专利技术示例性实施例的自动生成组合特征的方法及系统,能够通过对特征抽取步骤和自动特征组合步骤的配置实现自动特征组合,既可以提升用户体验,还可以有助于提升机器学习模型的效果。

【技术实现步骤摘要】
自动生成组合特征的方法及系统
本专利技术总体说来涉及人工智能领域,更具体地讲,涉及一种自动生成组合特征的方法及系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,一方面,可通过改进特征提取方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果的恶化。然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将特征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另一方面,也难以从运算角度方面确定有效的组合方式。综上所述,现有技术中难以将特征进行自动组合。
技术实现思路
本专利技术的示例性实施例的目的在于提供一种自动生成组合特征的方法及系统,以克服上述至少一个缺点。根据本专利技术示例性实施例的一个方面,提供一种自动生成组合特征的方法,包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。进一步地,所述自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征由所述多个关键单位特征之中对应的部分关键单位特征组合而成。进一步地,可根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。进一步地,所述自动特征组合算法可用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。进一步地,所述自动特征组合步骤被配置为可包括:基于特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到所述至少一个组合特征。进一步地,所述自动特征组合步骤被配置为可包括:基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到与每个子集对应的组合特征。进一步地,所述自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。进一步地,所述特征抽取步骤可对应于表示机器学习过程的有向无环图中的特征抽取节点,所述自动特征组合步骤可对应于所述有向无环图中的自动特征组合节点。进一步地,可利用所述自动特征组合节点的配置项来配置所述自动特征组合步骤。进一步地,所述自动特征组合节点的配置项可包括关于是否开启关键特征筛选功能的选项开关,其中,在所述选项开关被用户开启的情况下,所述自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征可由所述多个关键单位特征之中对应的部分关键单位特征组合而成。进一步地,所述自动特征组合节点的配置项可包括与并行地执行多个与所述自动特征组合算法对应的处理流程相关的并行运算配置项,其中,所述并行运算配置项可涉及以下项之中的至少一项:并行执行的处理流程的数量、每个处理流程对应的自动特征组合算法中训练机器学习模型时的超参数。进一步地,所述并行运算配置项可还涉及以下项之中的至少一项:数据集的子集数量、每个子集对应的数据记录抽取规则。进一步地,所述并行运算配置项可具有默认配置值和/或手动配置值。进一步地,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练的机器学习模型具有实质性差异。进一步地,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数具有差异。进一步地,所述超参数可包括学习率,并且,涉及学习率的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数呈现阶梯型递增的趋势。进一步地,所述自动特征组合节点的配置项可包括关于是否开启去重功能的选项开关,其中,在所述选项开关被用户开启的情况下,所述自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。根据本专利技术示例性实施例的另一方面,提供一种自动生成组合特征的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。进一步地,所述自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征可由所述多个关键单位特征之中对应的部分关键单位特征组合而成。进一步地,处理器可还被配置为:根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。进一步地,所述自动特征组合算法可用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。进一步地,所述自动特征组合步骤被配置为可包括:基于特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到所述至少一个组合特征。进一步地,所述自动特征组合步骤被配置为可包括:基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到与每个子集对应的组合特征。进一步地,所述自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。进一步地,所述特征抽取步骤可对应于表示机器学习过程的有向无环图中的特征抽取节点,所述自动特征组合步骤可对应于所述有向无环图中的自动特征组合节点。进一步地,可利用所述自动特征组合节点的配置项来配置所述自动特征组合步骤。进一步地,所述自动特征组合节点的配置项可包括关于是否开启关键特征筛选功能的选项开关,其中,在所述选项开关被用户开启的情况下本文档来自技高网...

【技术保护点】
1.一种自动生成组合特征的方法,包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。

【技术特征摘要】
1.一种自动生成组合特征的方法,包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。2.如权利要求1所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征由所述多个关键单位特征之中对应的部分关键单位特征组合而成。3.如权利要求2所述的方法,其特征在于,根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。4.如权利要求1所述的方法,其特征在于,所述自动特征组合算法用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。5.如权利要求1所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:基于特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到所述至少一个组合特征。6.如权利要求1或5所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与所述自动特征组合算法对...

【专利技术属性】
技术研发人员:彭聆然高晓伟孙迪康执玺
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1