高阶特征的自动生成方法、系统、设备和介质技术方案

技术编号:25044471 阅读:59 留言:0更新日期:2020-07-29 05:34
本发明专利技术公开了一种高阶特征的自动生成方法、系统、设备和介质,高阶特征的自动生成方法步骤包括以下步骤:获取输入特征集,所述输入特征集中包含有若干个输入特征;通过对当前的输入特征集中的输入特征进行算子操作生成高阶特征;将生成的每一个高阶特征分别加入至输入特征集中,以组成若干组候选特征集,利用选定的机器模型对所述若干组候选特征集进行评估;将评估结果最优的若干个候选特征集中的高阶特征加入至输入特征集中,以得到更新的输入特征集;利用所述机器模型对输入特征集进行评估;输出更新的输入特征集中的高阶特征和特征对应的具体含义。本发明专利技术不仅能自动产生出有效的高阶特征,而且能对产生的高阶特征命名和解释含义。

【技术实现步骤摘要】
高阶特征的自动生成方法、系统、设备和介质
本专利技术涉及人工智能与机器学习领域,尤其涉及一种高阶特征的自动生成方法、系统、设备和介质。
技术介绍
近些年来,越来越多的案例表明,有效的特征对于一个机器学习任务的各项指标能带来巨大提升。机器学习中的特征是指事物某些突出性质的表现,是区分事物的关键。许多专家可以利用自己的领域知识,结合具体的业务场景,设计出有用的特征,推动业务发展。另一方面,模型的可解释性在一些场景下非常重要。比如旅游产品的搜索排序,良好的可解释性对于旅游产品的供应商理解他们产品的排序结果十分重要。通常情况下,一个有效特征的设计往往要经历猜想、统计分析、模型验证等多个过程。首先需要深入结合业务背景进行分析,然后收集数据提取特征,并进行统计检验,再将特征加入模型当中,观察效果。一个有效特征的产生往往需要经过多轮验证,这个过程耗费许多人力、物力,且难以做到特征的准确性和高覆盖性。另一方面,深度学习在近年来的搜索推荐任务中表现优异,在多项关键指标上,它的表现已经超过了其他形式的机器学习。深度学习直接操作初始数据并自动学习初始数据集相本文档来自技高网...

【技术保护点】
1.一种高阶特征的自动生成方法,其特征在于,所述高阶特征的自动生成方法包括:/nS1、获取输入特征集,所述输入特征集中包含有若干个输入特征;/nS2、通过对当前的输入特征集中的输入特征进行算子操作生成高阶特征;/nS3、将生成的每一个高阶特征分别加入至输入特征集中,以组成若干组候选特征集,利用选定的机器模型对所述若干组候选特征集进行评估;/nS4、将评估结果最优的若干个候选特征集中的高阶特征加入至输入特征集中,以得到更新的输入特征集;/nS5、利用所述机器模型对步骤S2中的输入特征集进行评估,得到第一评估结果,并判断所述机器模型对所述若干组候选特征集的评估结果是否均劣于所述第一评估结果,若是,...

【技术特征摘要】
1.一种高阶特征的自动生成方法,其特征在于,所述高阶特征的自动生成方法包括:
S1、获取输入特征集,所述输入特征集中包含有若干个输入特征;
S2、通过对当前的输入特征集中的输入特征进行算子操作生成高阶特征;
S3、将生成的每一个高阶特征分别加入至输入特征集中,以组成若干组候选特征集,利用选定的机器模型对所述若干组候选特征集进行评估;
S4、将评估结果最优的若干个候选特征集中的高阶特征加入至输入特征集中,以得到更新的输入特征集;
S5、利用所述机器模型对步骤S2中的输入特征集进行评估,得到第一评估结果,并判断所述机器模型对所述若干组候选特征集的评估结果是否均劣于所述第一评估结果,若是,则输出更新的输入特征集中的高阶特征,若否,则返回步骤S2。


2.如权利要求1所述的高阶特征的自动生成方法,其特征在于,
步骤S1中的所述输入特征集中的输入特征均具有对应的名称和含义;
步骤S5中在输出更新的输入特征集中的高阶特征时,还输出所述高阶特征的名称和含义。


3.如权利要求1所述的高阶特征的自动生成方法,其特征在于,所述获取输入特征集的步骤包括:
获取原始特征;
对所述原始特征进行分析,删除值缺失率大于第一阈值的特征及相关性高于第二阈值的特征,以得到第一原始特征;
基于所述第一原始特征,筛选出不同类别的特征,以得到输入特征集。


4.如权利要求1所述的高阶特征的自动生成方法,其特征在于,所述通过对当前的输入特征集中的输入特征进行算子操作生成高阶特征,以得到第一特征的步骤包括:
对所述当前输入特征集中的输入特征进行一元算子操作,获取基础特征;
对所述基础特征进行二元算子和/或多元算子操作,生成所述高阶特征。


5.如权利要求4所述的高阶特征的自动生成方法,其特征在于,当对所述基础特征进行多元算子操作时,所述多元算子操作步骤包括:
根据权重概率从多元算子集中选取一个所述多元算子,所述多元算子集包含groupThenMin、groupThenMax、groupThenAvg算子;
随机从[2,L]区间内选取m个所述输入特征;所述[2,L]中的L为采用多元算子时,选择所述输入特征的最大数量;
对所述m个所述输入特征进行多元算子操作;
重复执行上述步骤多轮次,产生多个所述高阶特征,并依据所述高阶特征的表现,对所述多元算子的权重,依据公式进行更新,并归一化;所述公式如下:



公式中P(Δk)表示所述多元算子Δk的权重,Ck表示Δk在当前轮次的使用次数,Valik为Δk在第i次使用时在有关机器学习模型上的评估指标。


6.一种高阶特征的自动生成系统,其特征在于,所述高阶特征的自动生成系统包括:
获取模块,用于获取输入特征集,所述输入特征集中包含有若干个输入特征;
操作模块,用于通过对当前的输入特征集中的输入特征进行算子操作生成高阶特征;
评估模...

【专利技术属性】
技术研发人员:王育添江文斌李健
申请(专利权)人:上海携程国际旅行社有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1