The present invention relates to the technical field of financial control, financial control field discloses the wind fusion feature extraction method, the original data to obtain the original user ID corresponding; data cleaning of dirty data in the original sample data acquisition; data extraction based features constitute the basis and basic characteristics, and the original user ID corresponding relation generate training; training samples are input to the machine learning model, the machine learning model with random forest, random forest contains multiple decision tree model, the trained decision tree model after the formation of a series of leaf nodes, and through the one hot encoding discrete encoding of the leaf node, the discrete characteristics of the discrete encoding and the original user ID corresponding to the formation of the user; will have the same basic characteristics corresponding to the original user ID and the discrete characteristics of the Association The aggregated training data can solve the problem that the existing feature processing mode is single and the combination of feature violence results in the exponential explosion of data.
【技术实现步骤摘要】
金融风控领域多特征融合提取方法
本专利技术涉及金融网控
,具体地,涉及金融风控领域多特征融合提取方法。
技术介绍
目前市场上基本上只能对单特征进行非线性变化,诸如log(x),1/x,x^2等等,双特征进行交叉处理,诸如x^2+y^2,1/(x*y)等模式。这样做能够有效地结合不同信息的价值,比如年龄和收入两个特征进行交叉,年龄越大,而收入没有增加,那说明这个人价值较低,对模型会有很好的区分度;这么做也可以提高特征的效果,保证模型的产出能够得到提高。但市场上几乎没有对多个特征进行组合,比如将性别、年龄和收入的特征组合,究其原因,特征暴力组合会导致数据呈指数型爆炸,工程实现难度很大,且传统特征提取基于规则、行业经验,效率低,并且难以发现不同领域数据之间的交叉特征,针对以上问题,我们利用多颗决策树模型对原始特征数据进行重新组合,利用组合的叶子节点离散化编码作为特征,如此让多个特征进行有效融合而不会产生爆炸性的特征组合。
技术实现思路
为解决上述技术问题,本专利技术提供了金融风控领域多特征融合提取方法以达到多维特征的融合以产生新的高效特征、防止产生爆炸性的特征组合的目 ...
【技术保护点】
金融风控领域多特征融合提取方法,其特征在于,包括如下步骤:(1)获取原始用户ID对应的原始样本数据;(2)对步骤(1)获取原始样本数据中的脏数据进行数据清洗,其中,所述脏数据包括数据错误、缺失值以及异常的离群值,所述异常的离群值通过对原始样本数据的变量值计算其IV值并进行判断排除;(3)提取基础数据构成基础特征,并将基础特征与原始用户ID进行一一对应关联产生训练样本;(4)将步骤(3)中的训练样本录入至机器学习模型中,所述机器学习模型中设有随机森林,随机森林中包含有多个决策树模型,经过决策树模型训练后形成一系列的叶子节点,并通过one‑hot编码对叶子节点进行离散编码,离散 ...
【技术特征摘要】
1.金融风控领域多特征融合提取方法,其特征在于,包括如下步骤:(1)获取原始用户ID对应的原始样本数据;(2)对步骤(1)获取原始样本数据中的脏数据进行数据清洗,其中,所述脏数据包括数据错误、缺失值以及异常的离群值,所述异常的离群值通过对原始样本数据的变量值计算其IV值并进行判断排除;(3)提取基础数据构成基础特征,并将基础特征与原始用户ID进行一一对应关联产生训练样本;(4)将步骤(3)中的训练样本录入至机器学习模型中,所述机器学习模型中设有随机森林,随机森林中包含有多个决策树模型,经过决策树模型训练后形成一系列的叶子节点,并通过one-hot编码对叶子节点进行离散编码,离散编码与原始用户ID对应形成用户的离散特征;(5)将分别对应有相同原始用户ID的基础特征和离散特征进行关联合并得到的聚合训练数据,并对聚合训练数据进行学习模型训练。2.根据权利要求1所述的金融风控领域多特征融合提取方法,其特征在于,所...
【专利技术属性】
技术研发人员:张林江,
申请(专利权)人:成都知数科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。