【技术实现步骤摘要】
计算模型的特征生成方法、装置、电子设备和存储介质
本申请涉及机器学习领域,具体涉及计算模型的特征生成方法、装置、电子设备和存储介质。
技术介绍
机器学习以计算模型的构建作为基础,在不同的领域往往选择构建不同的计算模型。例如,金融风控领域中,常使用信用评分卡对用户信用风险进行建模及评估,为了平衡计算模型的可解释性和算法复杂度,信用评分卡往往构建于线性模型之上。对于线性模型而言,无法捕捉特征间的交互信息,因此在构建计算模型之前的特征工程阶段,通常需要进行特征的交叉衍生,得到组合特征(也称交叉特征、交叉组合特征等)。现有技术中,特征衍生的方式存在一些问题,例如:线性判别分析LDA无法捕捉到特征间的非线性交互信息;暴力交叉衍生的复杂度过高、可解释性较差;梯度提升树GBDT、随机森林陷入局部最优,等等。因此,需要一种新的特征生成方式。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的计算模型的特征生成方法、装置、电子设备和存储介质。依据本申请的一个方面,提供了一种计算模型的特征生成方法,包括:获取样本数据集和基础特征集;根据所述样本数 ...
【技术保护点】
1.一种计算模型的特征生成方法,其特征在于,包括:获取样本数据集和基础特征集;根据所述样本数据集和所述基础特征集构建序贯森林模型;其中,为各森林模型分配不同的基础特征,同一森林模型中的各树模型的根节点均使用为该森林模型分配的同一基础特征作为划分特征;根据构建完成的序贯森林模型得到组合特征和/或复合特征。
【技术特征摘要】
1.一种计算模型的特征生成方法,其特征在于,包括:获取样本数据集和基础特征集;根据所述样本数据集和所述基础特征集构建序贯森林模型;其中,为各森林模型分配不同的基础特征,同一森林模型中的各树模型的根节点均使用为该森林模型分配的同一基础特征作为划分特征;根据构建完成的序贯森林模型得到组合特征和/或复合特征。2.如权利要求1所述的方法,其特征在于,所述为各森林模型分配不同的基础特征包括:根据所述样本数据集对所述基础特征集中的各基础特征进行预设数量轮信息增益计算,在每轮计算结束后,将该轮得到的信息增益最大的基础特征从所述基础特征集提取出来,并将其分配给一个未被分配基础特征的森林模型。3.如权利要求2所述的方法,其特征在于,所述根据所述样本数据集和所述基础特征集构建序贯森林模型包括:对一个森林模型中的各树模型,分别确定各层所使用的划分特征;其中,在确定一目标层所使用的划分特征时,根据各树模型中各层已使用的划分特征和所述基础特征集,确定目标基础特征列表,根据所述样本数据集和所述目标基础特征列表进行信息增益计算,得到信息增益最大的基础特征作为该目标层所使用的划分特征。4.如权利要求3所述的方法,其特征在于,所述根据各树模型中各层已使用的基础特征和所述基础特征集,确定目标基础特征列表包括:若目标层为第二层,则选取属于所述基础特征集、但未被根节点使用、且未被同一森林模型中其他树模型的第二层使用的基础特征,放入所述目...
【专利技术属性】
技术研发人员:李京昊,陈鹏程,陈金辉,朱晨,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。