新增业务数据的有效性分析方法、设备及存储介质技术

技术编号:32485084 阅读:21 留言:0更新日期:2022-03-02 09:50
本发明专利技术公开了一种新增业务数据的有效性分析方法、设备及存储介质。该方法包括:当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特征,计算新增候选特征对应的候选特征向量与业务模型的标签向量之间的相关系数,得到新增候选特征的系数向量;将新增候选特征的系数向量与各类簇中心向量计算距离,确定新增候选特征所属的目标特征类簇,以根据目标特征类簇中的存量特征确定新增候选特征对各业务模型的有效性。本发明专利技术的新增业务数据的有效性分析方法的计算复杂度更低,进而能够提高新增业务数据的有效性分析效率。进而能够提高新增业务数据的有效性分析效率。进而能够提高新增业务数据的有效性分析效率。

【技术实现步骤摘要】
新增业务数据的有效性分析方法、设备及存储介质


[0001]本专利技术涉及特征工程
,尤其涉及一种新增业务数据的有效性分析方法、设备及存储介质。

技术介绍

[0002]随着互联网金融技术、大数据技术的发展,能够获取数据的途径越来越丰富,企业金融信息数据库的特征维度数量级可达到成千上万级别,直接将业务数据中应用到每个业务模型进行训练,会出现过拟合、模型复杂度高、计算量大等各种问题。因此,如何快速分析业务数据针对不同的业务模型的有效性,是当前所有金融科技行业所面临的问题。
[0003]由于企业数据库的不断更新,需要不断挖掘新增业务数据对业务模型的有效性,将新增业务数据应用到业务模型的训练中,以发挥新增业务数据的作用。在评判新增业务数据的有效性,也即是否对业务模型的训练产生正向效果时,现有的分析方法中,需要把新增业务数据中的特征与现有特征两两计算相关性,再根据现有特征的有效性评估新增业务数据的有效性,由于现有特征维度庞大,这种分析方法的时间复杂度较高,导致新增业务数据的有效性分析效率低。

技术实现思路

[0004]本专利技术的主要目的在于提供一种新增业务数据的有效性分析方法、设备及存储介质,旨在解决目前新增业务数据的有效性分析方法将新增业务数据中的特征与现有特征向量计算相关性,时间复杂度高的技术问题。
[0005]为实现上述目的,本专利技术提供一种新增业务数据的有效性分析方法,所述方法包括以下步骤:
[0006]当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特征,从所述新增业务数据中获取各个第一样本在所述新增候选特征下的特征值组成所述新增候选特征对应的候选特征向量,以及获取各所述第一样本在业务模型的目标标签下的标签值组成所述业务模型对应的第一标签向量;
[0007]分别计算所述新增候选特征对应的候选特征向量与多个所述业务模型对应的第一标签向量之间的第一相关系数,将多个所述第一相关系数组成所述新增候选特征对应的系数向量;
[0008]将所述新增候选特征对应的系数向量与各类簇中心向量计算距离,根据距离计算结果确定所述新增候选特征所属的目标特征类簇,以根据所述目标特征类簇中的存量特征对各所述业务模型的有效性确定所述新增业务数据对各所述业务模型的有效性,其中,各所述类簇中心向量是基于存量业务数据中的各个存量特征对应的系数向量聚类得到的。
[0009]可选地,所述当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特征的步骤之前,还包括:
[0010]获取存量业务数据,并从存量业务数据中确定存量特征;
[0011]从所述存量业务数据中获取各个第二样本在所述存量特征下的特征值组成所述存量特征对应的存量特征向量,以及获取各所述第二样本在所述业务模型的目标标签下的标签值组成所述业务模型对应的第二标签向量;
[0012]分别计算所述存量特征对应的存量特征向量与多个所述业务模型对应的第二标签向量之间的第二相关系数,将多个所述第二相关系数组成所述存量特征对应的系数向量;
[0013]对多个所述存量特征对应的系数向量进行聚类,将各所述存量特征划分为多个特征类簇,并得到各所述特征类簇对应的类簇中心向量。
[0014]可选地,计算所述存量特征对应的存量特征向量与所述业务模型对应的第二标签向量之间的第二相关系数的步骤包括:
[0015]计算所述存量特征向量中各元素两两之间的距离得到第一距离矩阵,以及计算所述第二标签向量中各元素两两之间的距离得到第二距离矩阵;
[0016]将所述第一距离矩阵中各元素各自减去同行均值和同列均值后加上所述第一距离矩阵的元素均值得到第三距离矩阵,以及将所述第二距离矩阵中各元素各自减去同行均值和同列均值后加上所述第二距离矩阵的元素均值得到第四距离矩阵;
[0017]将所述第三距离矩阵中各元素的平方求和后除以列数,再计算平方根得到第一数值;将所述第四距离矩阵中各元素的平方求和后除以列数,再计算平方根得到第二数值;将所述第三距离矩阵和所述第四距离矩阵相乘后将各元素求和再除以列数,再计算平方根得到第三数值;
[0018]计算所述第一数值与所述第二数值相乘后的平方根得到第四数值,采用所述第三数值除以所述第四数值得到所述存量特征向量与所述第二标签向量之间的第二相关系数。
[0019]可选地,所述对多个所述存量特征对应的系数向量进行聚类,将各所述存量特征划分为多个特征类簇,并得到各所述特征类簇对应的类簇中心向量的步骤包括:
[0020]初始化预设数量的类簇中心向量;
[0021]分别计算所述存量特征对应的系数向量与各所述类簇中心向量的距离,将多个所述存量特征分别分配至距离最近的类簇中心向量对应的特征类簇;
[0022]将所述特征类簇中存量特征对应的系数向量进行平均,得到新的类簇中心向量,并检测是否满足预设的聚类结束条件;
[0023]若确定满足所述聚类结束条件,则结束聚类;
[0024]若确定不满足所述聚类结束条件,则基于所述新的类簇中心向量再返回执行所述分别计算所述存量特征对应的系数向量与各所述类簇中心向量的距离的步骤。
[0025]可选地,所述从所述存量业务数据中获取各个第二样本在所述存量特征下的特征值组成所述存量特征对应的存量特征向量的步骤包括:
[0026]从所述存量业务数据中获取各个第二样本在所述存量特征下的特征值;
[0027]将获取到的各个特征值中为空的特征值采用预设值进行替换后组成所述存量特征对应的存量特征向量。
[0028]可选地,所述根据距离计算结果确定所述新增候选特征所属的目标特征类簇的步骤包括:
[0029]当所述新增候选特征的系数向量与各所述类簇中心向量其中一个类簇中心向量
的距离小于预设值时,将与所述新增候选特征的系数向量距离小于所述预设值的类簇中心向量对应的特征类簇作为所述新增候选特征所属的目标特征类簇;
[0030]当所述新增候选特征的系数向量与各所述类簇中心向量多个类簇中心向量的距离小于所述预设值时,将与所述新增候选特征的系数向量距离最小的类簇中心向量对应的特征类簇作为所述新增候选特征所属的目标特征类簇;
[0031]当所述新增候选特征的系数向量与各所述类簇中心向量的距离均不小于所述预设值时,新增加一个特征类簇作为所述新增候选特征所属的目标特征类簇。
[0032]可选地,所述根据距离计算结果确定所述新增候选特征所属的目标特征类簇的步骤之后,还包括:
[0033]将所述新增候选特征添加至所述目标特征类簇,以增加所述目标特征类簇中的特征量;
[0034]当检测到针对目标业务模型的特征选择请求时,获取各所述存量特征对各业务模型的效果信息,根据所述效果信息从各所述存量特征中确定对所述目标业务模型的训练存在正向效果的目标存量特征;
[0035]从所述目标存量特征所在的特征类簇中获取新增候选特征作为所述目标业务模型的新增特征进行输出。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新增业务数据的有效性分析方法,其特征在于,所述方法包括以下步骤:当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特征,从所述新增业务数据中获取各个第一样本在所述新增候选特征下的特征值组成所述新增候选特征对应的候选特征向量,以及获取各所述第一样本在业务模型的目标标签下的标签值组成所述业务模型对应的第一标签向量;分别计算所述新增候选特征对应的候选特征向量与多个所述业务模型对应的第一标签向量之间的第一相关系数,将多个所述第一相关系数组成所述新增候选特征对应的系数向量;将所述新增候选特征对应的系数向量与各类簇中心向量计算距离,根据距离计算结果确定所述新增候选特征所属的目标特征类簇,以根据所述目标特征类簇中的存量特征对各所述业务模型的有效性确定所述新增业务数据对各所述业务模型的有效性,其中,各所述类簇中心向量是基于存量业务数据中的各个存量特征对应的系数向量聚类得到的。2.如权利要求1所述的新增业务数据的有效性分析方法,其特征在于,所述当检测到新增业务数据的评估请求时,从所述新增业务数据中确定新增候选特征的步骤之前,还包括:获取存量业务数据,并从存量业务数据中确定存量特征;从所述存量业务数据中获取各个第二样本在所述存量特征下的特征值组成所述存量特征对应的存量特征向量,以及获取各所述第二样本在所述业务模型的目标标签下的标签值组成所述业务模型对应的第二标签向量;分别计算所述存量特征对应的存量特征向量与多个所述业务模型对应的第二标签向量之间的第二相关系数,将多个所述第二相关系数组成所述存量特征对应的系数向量;对多个所述存量特征对应的系数向量进行聚类,将各所述存量特征划分为多个特征类簇,并得到各所述特征类簇对应的类簇中心向量。3.如权利要求2所述的新增业务数据的有效性分析方法,其特征在于,计算所述存量特征对应的存量特征向量与所述业务模型对应的第二标签向量之间的第二相关系数的步骤包括:计算所述存量特征向量中各元素两两之间的距离得到第一距离矩阵,以及计算所述第二标签向量中各元素两两之间的距离得到第二距离矩阵;将所述第一距离矩阵中各元素各自减去同行均值和同列均值后加上所述第一距离矩阵的元素均值得到第三距离矩阵,以及将所述第二距离矩阵中各元素各自减去同行均值和同列均值后加上所述第二距离矩阵的元素均值得到第四距离矩阵;将所述第三距离矩阵中各元素的平方求和后除以列数,再计算平方根得到第一数值;将所述第四距离矩阵中各元素的平方求和后除以列数,再计算平方根得到第二数值;将所述第三距离矩阵和所述第四距离矩阵相乘后将各元素求和再除以列数,再计算平方根得到第三数值;计算所述第一数值与所述第二数值相乘后的平方根得到第四数值,采用所述第三数值除以所述第四数值得到所述存量特征向量与所述第二标签向量之间的第二相关系数。4.如权利要求2所述的新增业务数据的有效性分析方法,其特征在于,所述对多个所述存量特征对应的系数向量进行聚类,将各所述存量特征划分为多个特征类簇,并得到各所述特征类簇对应的类簇中心向量的步骤包括:
初始化预设数量的类簇中心向量;分别计算所述存量特征对应的系数向量与各所述类簇中心向量的距离,将多个所述存量特征分别分配至距离最近的类簇中心向量对应的特征类簇;将所述特征类簇中存量特征对应的系数向量进行平均,得到新的类簇中心向量,并检测是否满足预设的聚类结束条件;若确定满足所述聚类结束条件,则结...

【专利技术属性】
技术研发人员:李泓佑钟皓明梁剑邹京甫许阿虹吕晟东张海川陈雯
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1