样本属性评估模型训练方法、装置及服务器制造方法及图纸

技术编号:20329604 阅读:15 留言:0更新日期:2019-02-13 06:02
本说明书实施例提供了一种样本属性评估方法,首先确定训练样本,该训练样本中仅包括少量已确认属性的黑样本,还有大部分未确认属性的未知样本。基于训练样本对应的关系图,确定每个社区的黑样本浓度,结合社区黑样本浓度以及半监督机器学习算法,即使黑样本数量较少,本实施例中的方法也可以从未知样本中挖掘潜在黑样本,进而确定模型训练所需要的白样本,达到模型训练要求,使得训练出的模型能够准确地对样本是否属于黑样本的属性进行评估。

【技术实现步骤摘要】
样本属性评估模型训练方法、装置及服务器
本说明书实施例涉及互联网
,尤其涉及一种样本属性评估模型训练方法、装置及服务器。
技术介绍
随着互联网的快速发展,越来越多的业务可以通过网络实现,如在线支付、在线购物、线上保险理赔等互联网业务。互联网在给人们生活提供便利的同时,也带来了风险。不法人员可能会进行电子业务欺诈,给其它用户造成损失。对于庞大的业务样本集而言,明确属性为黑的风险黑样本数量较少,大部分是未知属性的样本,由于业务欺诈数据样本具有隐藏性,所以,为了能够提升整体风控能力,亟需设计一种能够基于少量已知黑样本训练得到能够准确对未知样本进行属性评估的方案。
技术实现思路
本说明书实施例提供及一种样本属性评估方法、装置及服务器。第一方面,本说明书实施例提供一种样本属性评估方法,包括:确定与训练样本对应的关系图中每个社区的黑样本浓度,其中,所述训练样本包括黑样本和未知样本;基于所述每个社区的黑样本浓度,确定每个所述未知样本的白样本抽样概率,以每个所述未知样本的白样本抽样概率进行抽样,获得白样本;基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型。第二方面,本说明书实施例提供一种样本属性评估模型训练装置,包括:第一确定单元,用于确定与训练样本对应的关系图中每个社区的黑样本浓度,其中,所述训练样本包括黑样本和未知样本;第二确定单元,用于基于所述每个社区的黑样本浓度,确定每个所述未知样本的白样本抽样概率,以每个所述未知样本的白样本抽样概率进行抽样,获得白样本;训练单元,用于基半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型。第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述样本属性评估方法的步骤。第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述样本属性评估方法的步骤。本说明书实施例有益效果如下:本说明书实施例中,通过确定训练样本,该训练样本中仅包括少量已确认属性的黑样本,还有大部分未确认属性的未知样本。基于训练样本对应的关系图,确定每个社区的黑样本浓度,结合社区黑样本浓度以及半监督机器学习算法,即使已知黑样本数量较少,本实施例中的方法也可以从未知样本中挖掘潜在黑样本,进而确定模型训练所需要的白样本,达到模型训练要求,使得训练出的模型能够准确地对样本是否属于黑样本的属性进行评估。附图说明图1为本说明书实施例样本属性评估应用场景示意图;图2为本说明书实施例第一方面样本属性评估方法流程图;图3为本说明书实施例第二方面样本属性评估模型训练装置结构示意图;图4为本说明书实施例第三方面样本属性评估服务器结构示意图。具体实施方式为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。请参见图1,为本说明书实施例的样本属性评估应用场景示意图。终端100位于用户侧,与网络侧的服务器200通信。用户可通过终端100中的APP或网站产生实时事件,一些业务数据。服务器200收集各个终端产生的实时事件,即可挑选出训练样本。本说明书实施例可应用于风险样本识别或保险理赔中骗保样本识别等风控场景,也可以应用于二分类的分类场景。第一方面,本说明书实施例提供一种样本属性评估方法,请参考图2,包括步骤S201-S203。S201:确定与训练样本对应的关系图中每个社区的黑样本浓度,其中,所述训练样本包括黑样本和未知样本;S202:基于所述每个社区的黑样本浓度,确定每个所述未知样本的白样本抽样概率,以每个所述未知样本的白样本抽样概率进行抽样,获得白样本;S203:基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型。具体的,在本实施例中,首先通过步骤S201确定训练样本,训练样本如前述所示,可以是各个终端侧产生的业务数据,训练样本中包括已经标记好属性的黑样本,还包括未知属性的未知样本。例如:在保险理赔场景中,训练样本为申请理赔的用户的相关数据,其中,确定骗保用户对应的样本为黑样本,保险理赔场景中已定骗保事实的黑样本较少,缺乏大量黑样本标记,从而导致样本属性评估模型精准度大大折扣,如何解决这种场景下的模型训练问题是非常重要工作。本实施例中的方法,可以结合样本的社区属性与半监督机器学习算法,来从大量未知样本中挖掘潜在的黑样本,达到模型训练所需要的黑样本数量,过滤得到信任度较高的白样本,训练时确保了黑样本和白样本的纯度,从而完成模型训练,得到精度较高的样本属性评估模型。进一步,再通过步骤S201确定与训练样本对应的关系图中每个社区的黑样本浓度。具体的,在本实施例中,需要预先构建包括训练样本的关系图。具体的,每个训练样本对应一个节点,构建的关系图中可以仅包括训练样本对应的节点,还可以是全网节点对应的关系图。图的构建过程可以是获取各节点在预定时间段内的历史事件,基于历史事件,按预设构图方法确定关系图,采用预设社区发现算法对关系图中的节点进行社区划分,其中,每个节点对应有该节点所属的社区标签。其中,预设时间段可以预先指定,预设构图方法需要定义以下各个内容:节点的定义,边的定义以及边的权重值的定义。本实施例也不限制具体的构图规则。不同的场景、不同实现中可以采用不同的构图规则。举例而言,在保险理赔场景中,预设构图方法可以是:以用户为点,若在半年内两个用户有过金融交易(如:转账),则将两个用户连接起来,边的权重可以是两个用户转账的次数。具体的,在本实施例中,针对上述构建的关系图上给运行一个或多个预设社区发现算法,这样,每一个点得到一个该节点所属社区的社区标签。预设社区发现方法可以是标签传播算法(LPA,LabelPropagationAlgorithm),也可以是快速折叠算法(FU,FastUnfolding)等等,在此,本申请不做限制。其中,标签传播算法流程简述如下:Step1:图上的每一个点都以自己点id作为自己的标签;Step2:每一个点都从自己的邻居那获取各邻居标签;Step3:每一个点收到来自所有邻居的标签之后,将收到标签中出现最多的作为自己的标签(如果有权图则是权重和最高的那个)。如果出现标签数相同多的标签,则在这些出现最多的标签中任选一个作为自己的标签;Step4:将每个点上的标签作为自己的社区标签输出。Step3:重复Step2直到所有点都不发生变化;Step4:将Step3得到的每一个社区当成点,重复Step2直到所有社区不发生变化;Step5:将每个点上的标签作为自己的社区标签输出。在对关系图划分好社区后,即可计算得到每个社区的黑样本浓度,每个社区的黑样本浓度的确定方式包括但不限于以下三种:第一种:确定每个社区中所有黑样本对应节点在该社区总节点中的第一占比,将所述第一占比作为该社区的黑样本浓度。第二种:确定每个社区中所有黑样本对应节点在所述关系图中总节点中的第二占比,将所述本文档来自技高网...

【技术保护点】
1.一种样本属性模型训练方法,包括:确定与训练样本对应的关系图中每个社区的黑样本浓度,其中,所述训练样本包括黑样本和未知样本;基于所述每个社区的黑样本浓度,确定每个所述未知样本的白样本抽样概率,以每个所述未知样本的白样本抽样概率进行抽样,获得白样本;基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型。

【技术特征摘要】
1.一种样本属性模型训练方法,包括:确定与训练样本对应的关系图中每个社区的黑样本浓度,其中,所述训练样本包括黑样本和未知样本;基于所述每个社区的黑样本浓度,确定每个所述未知样本的白样本抽样概率,以每个所述未知样本的白样本抽样概率进行抽样,获得白样本;基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型。2.根据权利要求1所述的方法,所述确定与训练样本对应的关系图中每个社区的黑样本浓度,包括:确定每个社区中所有黑样本对应节点在该社区总节点中的第一占比,将所述第一占比作为该社区的黑样本浓度;或确定每个社区中所有黑样本对应节点在所述关系图中总节点中的第二占比,将所述第一占比作为该社区的黑样本浓度;或确定每个社区中所有黑样本对应节点在该社区总节点中的第三占比,以及该社区总节点在所述关系图中的总节点中的第四占比,获得所述第三占比与所述第四占比的加权平均值,将所述加权平均值作为该社区的黑样本浓度。3.根据权利要求1所述的方法,所述基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型,包括:基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得样本属性评估模型;判断所述样本属性评估模型是否满足预设收敛条件;如果否,更新所述每个社区的黑样本浓度,基于更新后的每个社区的黑样本浓度与所述半监督机器学习算法继续训练,直至训练得到的样本属性评估模型满足所述预设收敛条件,将满足所述预设收敛条件的样本属性评估模型作为目标样本属性评估模型。4.根据权利要求3所述的方法,所述判断所述样本属性评估模型是否满足预设收敛条件,包括:基于所述样本属性评估模型对每个所述未知样本进行评估,获得每个所述未知样本的本轮属性评估结果,共计获得M个本轮属性评估结果,M为未知样本的个数;基于所述M个本轮属性评估结果与M个上一轮属性评估结果,判断所述样本属性评估模型是否满足预设收敛条件。5.根据权利要求4所述的方法,所述基于所述样本属性评估模型对每个所述未知样本进行评估,获得每个所述未知样本的本轮属性评估结果,包括:基于所述样本属性评估模型对每个所述未知样本进行评估,获得每个所述未知样本的黑样本评分,如果黑样本评分值大于预设分值,将该未知样本的属性信息标记为黑样本,其中,每个所述未知样本的本轮属性评估结果中包括该未知样本的属性信息。6.根据权利要求5所述的方法,所述基于所述M个本轮属性评估结果与M个上一轮属性评估结果,判断所述样本属性评估模型是否满足预设收敛条件,包括:判断每个未知样本的本轮属性评估结果中的属性信息与该未知样本的上一轮属性评估结果中的属性信息是否一致,如果是,表明所述本轮样本属性评估模型满足所述预设收敛条件。7.根据权利要求5所述的方法,所述更新所述每个社区的黑样本浓度,包括:基于所述M个本轮属性评估结果与M个上一轮属性评估结果,确定属性信息发生变化的未知样本;重新计算与所述属性信息发生变化的未知样本对应的社区的黑样本浓度。8.根据权利要求1-7中任一权利要求所述的方法,所述训练样本为申请理赔人员对应的保险数据,所述黑样本为骗保人员对应保险数据。9.一种样本属性评估方法,包括:根据权利要求1-7中任一权利要求所述的方法训练得到的目标样本属性评估模型,对新进样本进行评估,确定所述新进样本的评估结果,其中,所述评估结果...

【专利技术属性】
技术研发人员:王修坤赵婷婷刘斌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1