【技术实现步骤摘要】
新增业务数据的有效性分析方法、设备及存储介质
[0001]本专利技术涉及特征工程
,尤其涉及一种新增业务数据的有效性分析方法、设备及存储介质。
技术介绍
[0002]随着互联网金融技术、大数据技术的发展,能够获取数据的途径越来越丰富,企业金融信息数据库的特征维度数量级可达到成千上万级别,直接将业务数据中应用到每个业务模型进行训练,会出现过拟合、模型复杂度高、计算量大等各种问题。因此,如何快速分析业务数据针对不同的业务模型的有效性,是当前所有金融科技行业所面临的问题。
[0003]由于企业数据库的不断更新,需要不断挖掘新增业务数据对业务模型的有效性,将新增业务数据应用到业务模型的训练中,以发挥新增业务数据的作用。在评判新增业务数据的有效性,也即是否对业务模型的训练产生正向效果时,现有的分析方法中,需要把新增业务数据中的特征与现有特征两两计算相关性,再根据现有特征的有效性评估新增业务数据的有效性,由于现有特征维度庞大,这种分析方法的时间复杂度较高,导致新增业务数据的有效性分析效率低。
技术实现思路
[0004]本专利技术的主要目的在于提供一种新增业务数据的有效性分析方法、设备及存储介质,旨在解决目前新增业务数据的有效性分析方法将新增业务数据中的特征与现有特征向量计算相关性,时间复杂度高的技术问题。
[0005]为实现上述目的,本专利技术提供一种新增业务数据的有效性分析方法,所述方法包括以下步骤:
[0006]当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特 ...
【技术保护点】
【技术特征摘要】
1.一种新增业务数据的有效性分析方法,其特征在于,所述方法包括以下步骤:当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特征,从所述新增业务数据中获取各个第一样本在所述新增候选特征下的特征值组成所述新增候选特征对应的候选特征向量,以及获取各所述第一样本在业务模型的目标标签下的标签值组成所述业务模型对应的第一标签向量;分别计算所述新增候选特征对应的候选特征向量与多个所述业务模型对应的第一标签向量之间的第一相关系数,将多个所述第一相关系数组成所述新增候选特征对应的系数向量;将所述新增候选特征对应的系数向量与各类簇中心向量计算距离,根据距离计算结果确定所述新增候选特征所属的目标特征类簇,以根据所述目标特征类簇中的存量特征对各所述业务模型的有效性确定所述新增业务数据对各所述业务模型的有效性,其中,各所述类簇中心向量是基于存量业务数据中的各个存量特征对应的系数向量聚类得到的。2.如权利要求1所述的新增业务数据的有效性分析方法,其特征在于,所述当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特征的步骤之前,还包括:获取存量业务数据,并从存量业务数据中确定存量特征;从所述存量业务数据中获取各个第二样本在所述存量特征下的特征值组成所述存量特征对应的存量特征向量,以及获取各所述第二样本在所述业务模型的目标标签下的标签值组成所述业务模型对应的第二标签向量;分别计算所述存量特征对应的存量特征向量与多个所述业务模型对应的第二标签向量之间的第二相关系数,将多个所述第二相关系数组成所述存量特征对应的系数向量;对多个所述存量特征对应的系数向量进行聚类,将各所述存量特征划分为多个特征类簇,并得到各所述特征类簇对应的类簇中心向量。3.如权利要求2所述的新增业务数据的有效性分析方法,其特征在于,计算所述存量特征对应的存量特征向量与所述业务模型对应的第二标签向量之间的第二相关系数的步骤包括:计算所述存量特征向量中各元素两两之间的距离得到第一距离矩阵,以及计算所述第二标签向量中各元素两两之间的距离得到第二距离矩阵;将所述第一距离矩阵中各元素各自减去同行均值和同列均值后加上所述第一距离矩阵的元素均值得到第三距离矩阵,以及将所述第二距离矩阵中各元素各自减去同行均值和同列均值后加上所述第二距离矩阵的元素均值得到第四距离矩阵;将所述第三距离矩阵中各元素的平方求和后除以列数,再计算平方根得到第一数值;将所述第四距离矩阵中各元素的平方求和后除以列数,再计算平方根得到第二数值;将所述第三距离矩阵和所述第四距离矩阵相乘后将各元素求和再除以列数,再计算平方根得到第三数值;计算所述第一数值与所述第二数值相乘后的平方根得到第四数值,采用所述第三数值除以所述第四数值得到所述存量特征向量与所述第二标签向量之间的第二相关系数。4.如权利要求2所述的新增业务数据的有效性分析方法,其特征在于,所述对多个所述存量特征对应的系数向量进行聚类,将各所述存量特征划分为多个特征类簇,并得到各所述特征类簇对应的类簇中心向量的步骤包括:
初始化预设数量的类簇中心向量;分别计算所述存量特征对应的系数向量与各所述类簇中心向量的距离,将多个所述存量特征分别分配至距离最近的类簇中心向量对应的特征类簇;将所述特征类簇中存量特征对应的系数向量进行平均,得到新的类簇中心向量,并检测是否满足预设的聚类结束条件;若确定满足所述聚类结束条件,则结...
【专利技术属性】
技术研发人员:李泓佑,钟皓明,梁剑,邹京甫,许阿虹,吕晟东,张海川,陈雯,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。