生成标记样本及训练风险评级预测模型的方法及计算设备技术

技术编号:38141913 阅读:12 留言:0更新日期:2023-07-08 09:57
本申请提供一种生成标记样本及训练风险评级预测模型的方法及计算设备。一种基于电商数据生成标记样本的方法包括:对包含多个风险指标的风险指标空间进行降维并对样本排序,获得初始标记样本并放入样本空间;重复执行以下步骤,直至所述样本空间中标记样本的数量达到阈值:利用所述样本空间中的标记样本训练分类模型;通过训练后的分类模型进行样本标签化,利用得到的标记样本扩充所述样本空间。该方案通过半监督学习的方式进行样本标签化,从而通过数据生成标签,以生成训练样本,节省了人力。节省了人力。节省了人力。

【技术实现步骤摘要】
生成标记样本及训练风险评级预测模型的方法及计算设备


[0001]本申请涉及机器学习及商业大数据
,具体而言,涉及一种生成标记样本及训练风险评级预测模型的方法及计算设备。

技术介绍

[0002]随着网络计算技术的发展,电子商务活动中产生了大量的商业大数据。例如,与传统行业相比,电商在其生态价值链上会产生海量可获取的原始电商数据。这些数据的获取、加工、或者有效利用,可对企业经营活动提供帮助,或者对企业经营决策提供支持。
[0003]例如,这些电商大数据可通过用于训练各种机器学习模型而得到利用。但是,一般而言,这些数据需要在标注后才能用于训练各类模型,而这耗费的时间和人力成本相对较高,特别是对于海量的电商数据而言。
[0004]因此,需要一种对电商大数据进行标注的低成本方法,以充分利用电商大数据为企业经营活动提供帮助或支持。
[0005]在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本申请旨在提供一种基于电商数据生成标记样本及训练风险评级预测模型的方法及计算设备,通过半监督学习的方式进行样本标签化,从而通过数据生成标签,以生成训练样本,节省了人力。
[0007]本申请的其该用户特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0008]根据本申请的一方面,提供一种基于电商数据生成标记样本的方法,包括:对包含多个风险指标的风险指标空间进行降维并对样本排序,获得初始标记样本并放入样本空间;重复执行以下步骤,直至所述样本空间中标记样本的数量达到阈值:利用所述样本空间中的标记样本训练分类模型;通过训练后的分类模型进行样本标签化,利用得到的标记样本扩充所述样本空间。
[0009]根据本申请的另一方面,提供一种训练风险评级预测模型的方法,包括:利用前述方法生成标记样本;将所述标记样本的至少部分作为训练样本;选择多个风险指标;将所述多个风险指标划分为至少一个风险维度;基于所述训练样本和所述多个风险指标及所述至少一个风险维度,训练随机森林模型,其中,所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树随机获取所述多个标记样本和所述多个风险指标,所述第二组决策树随机获取所述训练样本且分别获取各风险维度的风险指标。
[0010]根据本申请的另一方面,提供一种计算设备,包括:处理器;存储器,所述存储器上存储有计算机程序;当所述处理器执行所述计算机程序时实现前述方法。
[0011]根据本申请的另一方面,提供一种计算机可读介质,其上存储有计算机程序,所述
程序被处理器执行时实现前述的方法。
[0012]根据一些实施例,通过半监督学习的方式进行样本标签化,从而通过数据生成标签,以生成训练样本,节省了人力。
[0013]根据一些实施例,使用随机森林替代逻辑回归作为底层模型。在使用随机森林模型生成子决策树时,以特定数量的子树选取特定风险维度的风险指标。通过将用户风险画像功能嵌入风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林模型的加持。这样,根据示例实施例的方法获得的模型预测结果更加准确。
[0014]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
[0015]通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
[0016]图1示出本申请技术方案的一种应用场景的示意图。
[0017]图2A示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型。
[0018]图2B示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型的训练模式。
[0019]图3示出根据本申请示例实施例的随机森林模型利用商业大数据进行风险评级的方法。
[0020]图4示出根据示例实施例对风险指标进行标准化的过程。
[0021]图5示出根据本申请实施例的训练风险评级预测模型的方法流程图。
[0022]图6示出根据本申请实施例通过半监督学习进行样本标签化的方法流程图。
[0023]图7示出根据本申请示例实施例的总体风险预测和风险画像的示例。
[0024]图8示出根据本申请示例实施例的计算设备的框图。
具体实施方式
[0025]现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
[0026]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
[0027]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0028]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0029]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0030]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其它实施例相结合。
[0031]金融机构传统上对电商企业进行风险管理是以线下对企业的尽职调查为主。通过对公司经营状况、公司财产线索、法人财产线索(房产、车等)、银行信用状况、债务状况、法律诉讼等方面的调查,对企业进行风险评估。调查的数据来源主要包括企业财报、银行流水、纳税申报表、工商信息平台、房产局数据库、中登网数据库等。这种方式的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于电商数据生成标记样本的方法,其特征在于,包括:对包含多个风险指标的风险指标空间进行降维并对样本排序,获得初始标记样本并放入样本空间;重复执行以下步骤,直至所述样本空间中标记样本的数量达到阈值:利用所述样本空间中的标记样本训练分类模型;通过训练后的分类模型进行样本标签化,利用得到的标记样本扩充所述样本空间。2.如权利要求1所述的方法,其特征在于,所述对包含多个风险指标的风险指标空间进行降维并对样本排序,获得初始标记样本并放入样本空间,包括:通过PCA把多个风险指标用更少的风险特征取代;根据所述风险特征对样本排序;以一定比例将排序好的样本中的头部样本和尾部样本分别标记为正样本和负样本,作为初始标记样本,放入样本空间。3.如权利要求1所述的方法,其特征在于,所述对包含多个风险指标的风险指标空间进行降维并对样本排序,获得初始标记样本并放入样本空间,包括:把多个风险指标用一个风险特征取代,所述风险特征是所述多个风险指标特征的线性组合;按所述风险特征的值对样本排序;以一定比例将排序好的样本中的头部样本和尾部样本分别标记为正样本和负样本,作为初始标记样本,放入样本空间。4.如权利要求1所述的方法,其特征在于,利用所述样本空间中的标记样本训练分类模型,包括:将所述样本空间中的标记样本放入决策树模型进行训练,得到训练后的分类模型。5.如权利要求4所述的方法,其特征在于,通过训练后的分类模型进行样本标签化,利用得到的标记样本扩充所述样本空间,包括:将之前未标记的样本放入训练后的分类模型中,得到对未标记样本的预测标记概率并排序;以一定比例将排序好的样本中的头部样本和尾部样本分别标记为正样本和负样本,放入已有标记样本的样本空间中。6.如权利要求1所述的方法,其特征在于,所述多个风险指标包括销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率中的一种或多种...

【专利技术属性】
技术研发人员:靳佳为李洪世
申请(专利权)人:深圳市致格数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1