【技术实现步骤摘要】
一种多模型融合方法
一种多模型融合方法,用于对用户进行分类,属于机器学习
技术介绍
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的一个子集,也是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。机器学习分类三种:监督学习、非监督学习和强化学习。近年来,机器学习技术得到飞速的发展,在信息识别、推荐引擎等领域都取得了出色的应用效果,大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。目前,传统的模型分类,是以专家经验驱动,结合事后统计分析得到专家评分卡。专家评分卡,主要是基于传统的逻辑回归,用于识别不同场景下不同级别的人群。但是,专家评分卡存在维度少、精度低、迭代困难等问题。Facebook在2014年的文章介绍了通过GBDT解决LR的特征 ...
【技术保护点】
1.一种多模型融合方法,其特征在于,包括如下步骤:S1、获取包含用户特征的数据集,并进行处理;S2、基于XGBoost算法和两个不同的Y值交叉区间设置,选择不同的衍生方法对处理后的数据集中的特征进行衍生,并将数据集特征与所有衍生后的特征作为新的数据集输入两个XGBoost模型进行训练和调优,调优后的两个XGBoost模型输出各训练集样本在每颗树的叶子节点编号;S3、根据叶子节点编号集训练One‑hot编码,将每个XGBoost模型输出的叶子节点编号通过训练好的One‑hot编码转换,得到各训练集样本对应的所有LR特征,再基于所有训练集样本对应的LR特征,训练调优LR模型;S ...
【技术特征摘要】
1.一种多模型融合方法,其特征在于,包括如下步骤:S1、获取包含用户特征的数据集,并进行处理;S2、基于XGBoost算法和两个不同的Y值交叉区间设置,选择不同的衍生方法对处理后的数据集中的特征进行衍生,并将数据集特征与所有衍生后的特征作为新的数据集输入两个XGBoost模型进行训练和调优,调优后的两个XGBoost模型输出各训练集样本在每颗树的叶子节点编号;S3、根据叶子节点编号集训练One-hot编码,将每个XGBoost模型输出的叶子节点编号通过训练好的One-hot编码转换,得到各训练集样本对应的所有LR特征,再基于所有训练集样本对应的LR特征,训练调优LR模型;S4、步骤S2中两个调优后的XGBoost模型和对应的步骤S3中得到的调优后的LR模型,为得到XGBoost+LR融合模型。2.根据权利要求1所述的一种多模型融合方法,其特征在于,所述步骤S1中的处理包括:对数据集进行数据清洗及重塑,即依次进行数据集合并、数据集去重及删除不适用特征。3.根据权利要求1或2所述的一种多模型融合方法,其特征在于,所述步骤S2的具体步骤为:S2.1、基于XGBoost算法和两个不同的Y值交叉区间设置,并利用网格搜索寻找两个XGBoost模型的最优参数,其中,一个XGBoost模型为模型1,另一个XGBoost模型为模型2,交叉区间是指模型1的目标类用户群和灰度类用户群是模型2的目标类用户群,模型1的非目标类用户群为模型2的灰度类用户群;S2.2、模型1采用one-hot、PCA降维或t-SNE降维中的一种方法对处理后的数据集中的特征进行衍生,模型2采用RFM模型、离散化分箱中的一种方法对处理后的数据集中的特征进行衍生;S2.3、数据集特征分别与对应模型1和模型2做出的所有衍生后的特征作为新的数据集,将新的数据集进行重要性排序后,采用SelectKBest特征选取方法从排序后的特征中选择前N1个特征作为训练集样本输入模型1进行训练,采用Featurelmportance特征选取方法从排序后的特征中选择...
【专利技术属性】
技术研发人员:冯诗炀,程序,段银春,刘洪江,赵小诣,
申请(专利权)人:成都新希望金融信息有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。