一种扩充建模样本数据标签的方法及装置制造方法及图纸

技术编号:36759536 阅读:8 留言:0更新日期:2023-03-04 10:53
本发明专利技术提供了一种扩充建模样本数据标签的方法及装置,扩充建模样本数据标签的方法包括:从预先存储的供应链对应的数据库中,针对每一样本用户,提取该样本用户的样本数据,得到样本数据集;基于样本数据集中的各样本数据以及预先设置的价值评估算法,计算样本用户的评价指标值;基于各样本用户的评价指标值,对样本用户进行分类,得到分层客群,依据预先设置的显著性差异策略,从各分层客群中,获取有效客群集并进行标签标记;依据进行标签标记的有效客群集以及支持向量机算法,构建支持向量机模型;基于构建的支持向量机模型,对除有效客群集之外的分层客群中的样本用户进行标签标记。可以提高基于建模样本数据构建的风险评估模型的精度。估模型的精度。估模型的精度。

【技术实现步骤摘要】
一种扩充建模样本数据标签的方法及装置


[0001]本专利技术涉及数据预处理
,具体而言,涉及一种扩充建模样本数据标签的方法及装置。

技术介绍

[0002]供应链金融是金融机构以一核心企业为核心,基于原材料采购、制造商、分销商、零售商、终端用户形成供应链条,以该核心企业的信用为整个供应链条上的信用基础,为供应链条上的上下游企业提供担保,全方位为供应链条上的企业提供金融融资的服务。目前,供应链金融一般通过对少数核心企业的历史数据进行审核,基于历史数据的审核,为对应的企业的信用进行标签赋值,基于标签赋值的历史数据构建风险评估模型,利用构建的风险评估模型对供应链条上各企业进行风险评估,从而由银行或贷款机构给供应链条上各企业授信。但该方法,风险评估模型仅以审核的少数核心企业设置标签的样本数据进行构建,样本数据量较少,使得构建的风险评估模型的精度不高,从而使得对企业的风险评估的误差较大。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供扩充建模样本数据标签的方法及装置,以提高基于建模样本数据构建的风险评估模型的精度。
[0004]第一方面,本专利技术实施例提供了扩充建模样本数据标签的方法,包括:
[0005]从预先存储的供应链对应的数据库中,针对每一样本用户,提取该样本用户的样本数据,得到样本数据集;
[0006]基于样本数据集中的各样本数据以及预先设置的价值评估算法,计算样本用户的评价指标值;
[0007]基于各样本用户的评价指标值,对样本用户进行分类,得到分层客群,依据预先设置的显著性差异策略,从各分层客群中,获取有效客群集并进行标签标记;
[0008]依据进行标签标记的有效客群集以及支持向量机算法,构建支持向量机模型;
[0009]基于构建的支持向量机模型,对除有效客群集之外的分层客群中的样本用户进行标签标记。
[0010]结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述基于样本数据集中的各样本数据以及预先设置的价值评估算法,计算样本用户的评价指标值,包括:
[0011]遍历样本用户的样本数据集中的各样本数据,获取该样本用户的最近一次采购时间;
[0012]计算获取的最近一次采购时间与当点时间的时间差,得到该样本用户的最近一次采购时间间隔;
[0013]依据预先设置的时间阈值,统计该时间阈值内的采购次数,得到该样本用户的采
购频率;
[0014]基于各次采购的金额,计算该样本用户的采购总金额。
[0015]结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述基于各样本用户的评价指标值,对样本用户进行分类,包括:
[0016]依据各样本用户的评价指标值的最小值与最大值以及预先设置的等份数,对评价指标值进行等份,得到等份评价指标值;
[0017]依据预先设置的评分策略,对各等份评价指标值分别进行评分;
[0018]针对每一样本用户,依据各等份评价指标值的评分,获取该样本用户的评价指标二分值;
[0019]基于各样本用户的评价指标二分值,构建样本分层客群集,基于构建的样本分层客群集,对样本用户进行分类。
[0020]结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述依据预先设置的显著性差异策略,从各分层客群中,获取有效客群集并进行标签标记,包括:
[0021]从对样本用户进行分类得到的分层客群中,分别选取最近一次采购时间间隔二分值、采购频率二分值、采购总金额二分值均为极好或者均为极差的分层客群,得到有效客群集;
[0022]对有效客群集中均为极好的分层客群进行极好标签标记,以及,对有效客群集中均为极差的分层客群进行极差标签标记。

[0023]结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述依据进行标签标记的有效客群集以及支持向量机算法,构建支持向量机模型,包括:
[0024]随机初始化初始支持向量机中粒子的位置和速度;
[0025]设置包含各粒子的粒子群的当前位置以及最佳粒子位置;
[0026]获取标签标记的有效客群集中的每一训练样本用户对应的样本数据,依据该训练样本用户对应的样本数据以及该训练样本用户对应的标签,对初始支持向量机模型进行训练,以确定粒子群是否收敛;
[0027]若收敛,得到训练的支持向量机模型,依据标签标记的有效客群集中的每一测试样本用户对应的样本数据,对训练的支持向量机模型进行测试,基于训练的支持向量机模型输出的分类标签以及该测试样本用户对应的标签,确定训练的支持向量机模型满足预先设置的精度阈值,得到支持向量机模型。
[0028]结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:
[0029]若确定粒子群未收敛,依据自适应变异粒子群算法,更新粒子群的当前位置以及最佳粒子位置;
[0030]计算更新的粒子群的群体适应度方差以及全局极值;
[0031]依据预先设置的变异策略,基于更新的粒子群的群体适应度方差以及全局极值,计算变异概率;
[0032]生成随机数;
[0033]若生成的随机数小于变异概率,基于变异概率更新最佳粒子位置,若随机数不小于变异概率,基于更新的粒子群的群体适应度方差、全局极值以及所述理论极值,确定更新的粒子群是否收敛。
[0034]结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:
[0035]基于有效客群集中进行标签标记的样本数据,以及除有效客群集之外的分层客群中进行标签标记的样本数据,构建信用风险识别模型。
[0036]第二方面,本专利技术实施例还提供了一种扩充建模样本数据标签的装置,包括:
[0037]样本数据获取模块,用于从预先存储的供应链对应的数据库中,针对每一样本用户,提取该样本用户的样本数据,得到样本数据集;
[0038]指标值获取模块,用于基于样本数据集中的各样本数据以及预先设置的价值评估算法,计算样本用户的评价指标值;
[0039]标签标记模块,用于基于各样本用户的评价指标值,对样本用户进行分类,得到分层客群,依据预先设置的显著性差异策略,从各分层客群中,获取有效客群集并进行标签标记;
[0040]模型构建模块,用于依据进行标签标记的有效客群集以及支持向量机算法,构建支持向量机模型;
[0041]标签扩展模块,用于基于构建的支持向量机模型,对除有效客群集之外的分层客群中的样本用户进行标签标记。
[0042]第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种扩充建模样本数据标签的方法,其特征在于,包括:从预先存储的供应链对应的数据库中,针对每一样本用户,提取该样本用户的样本数据,得到样本数据集;基于样本数据集中的各样本数据以及预先设置的价值评估算法,计算样本用户的评价指标值;基于各样本用户的评价指标值,对样本用户进行分类,得到分层客群,依据预先设置的显著性差异策略,从各分层客群中,获取有效客群集并进行标签标记;依据进行标签标记的有效客群集以及支持向量机算法,构建支持向量机模型;基于构建的支持向量机模型,对除有效客群集之外的分层客群中的样本用户进行标签标记。2.根据权利要求1所述的方法,其特征在于,所述基于样本数据集中的各样本数据以及预先设置的价值评估算法,计算样本用户的评价指标值,包括:遍历样本用户的样本数据集中的各样本数据,获取该样本用户的最近一次采购时间;计算获取的最近一次采购时间与当点时间的时间差,得到该样本用户的最近一次采购时间间隔;依据预先设置的时间阈值,统计该时间阈值内的采购次数,得到该样本用户的采购频率;基于各次采购的金额,计算该样本用户的采购总金额。3.根据权利要求1所述的方法,其特征在于,所述基于各样本用户的评价指标值,对样本用户进行分类,包括:依据各样本用户的评价指标值的最小值与最大值以及预先设置的等份数,对评价指标值进行等份,得到等份评价指标值;依据预先设置的评分策略,对各等份评价指标值分别进行评分;针对每一样本用户,依据各等份评价指标值的评分,获取该样本用户的评价指标二分值;基于各样本用户的评价指标二分值,构建样本分层客群集,基于构建的样本分层客群集,对样本用户进行分类。4.根据权利要求3所述的方法,其特征在于,所述依据预先设置的显著性差异策略,从各分层客群中,获取有效客群集并进行标签标记,包括:从对样本用户进行分类得到的分层客群中,分别选取最近一次采购时间间隔二分值、采购频率二分值、采购总金额二分值均为极好或者均为极差的分层客群,得到有效客群集;对有效客群集中均为极好的分层客群进行极好标签标记,以及,对有效客群集中均为极差的分层客群进行极差标签标记。5.根据权利要求1至4任一项所述的方法,其特征在于,所述依据进行标签标记的有效客群集以及支持向量机算法,构建支持向量机模型,包括:随机初始化初始支持向量机中粒子的位置和速度;设置包含各粒子的粒子群的当前位置以及最佳粒子位置;获取标签标记的有效客群集中的每一训练样本用户对应的样本数据,依据该训练样本用户对应的...

【专利技术属性】
技术研发人员:陈明肖勃飞况文川石建伟魏蜀吾
申请(专利权)人:中电金信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1