【技术实现步骤摘要】
一种基于决策树方法的特征衍生系统及可读存储介质
本专利技术涉及数据处理
,具体涉及一种基于决策树方法的特征衍生系统及可读存储介质。
技术介绍
随着近几年个人信贷业务的迅猛发展,政策环境的日新月异,市场竞争的不断加剧,客户境况的瞬息万变,利用大数据方法来对信贷风险进行管理在当前社会环境下显得尤为重要。当前在技术层面遇到的难点主要在于寻找稳定具有可解释性的有用特征。有用的特征才能决定模型的最高效果,各种方法只能在理论层面逼近这个上限,而最新的诸如深度学习的一些方法的痛点在于这类方法的“黑匣”特点使其难以获得直观的容易理解的业务含义,即使这类方法能够在某种数据上提升模型效果,改变数据集或者业务环境之后,模型效果的变化可能就不尽如人意。因此主要的思考方向还在于利用已有数据集和特征来衍生出新的稳定且有较好可解释性的特征来提升模型效果。经检索,中国专利申请号为201711309287.6的专利,公开了一种基于决策树的大数据分析方法。本专利技术基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行 ...
【技术保护点】
1.一种基于决策树方法的特征衍生系统,其特征在于,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量。/n
【技术特征摘要】
1.一种基于决策树方法的特征衍生系统,其特征在于,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量。
2.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场;
所述数据采集器是在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息;
所述券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息,用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据;
所述合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据和媒体数据;
所述第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。
3.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术;
所述数据清理技术清除数据中的噪声,纠正不一致;
所述数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模;
所述数据集成技术将数据由多个数据源合并成一个一致的数据存储;
所述数据变换技术把数据压缩到较小的区间。
4.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测,其中,
所述logistic回归中w和b是待求参数,logistic回归通过函数L将w×x+b对应一个隐状态p,p=(w×x+b),然后根据p与1-p的大小决定因变量的值,如果L是logistic函数,就是logistic回归;logistic回归中的L函数使用sigmoid函数
逻辑回归的损失函数为:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1)
定义代价函数m个训练样本的损失函数的平均值;
衡量预测结果与真实结果之间的平均错误代价,优化的目标是最小化代价函数J(w,b),将代价函数最小就能达到使得模型最优的效果,对代价函数的最优化则是通过梯度下降法实现。
5.根据权利要求4所述的...
【专利技术属性】
技术研发人员:陈建,龙泳先,何小雄,王月月,徐撼亚,何侃,廖博帆,
申请(专利权)人:北京睿知图远科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。