样本属性评估模型训练方法、装置及服务器制造方法及图纸

技术编号：20329604 阅读：15 留言：0更新日期：2019-02-13 06:02

本说明书实施例提供了一种样本属性评估方法，首先确定训练样本，该训练样本中仅包括少量已确认属性的黑样本，还有大部分未确认属性的未知样本。基于训练样本对应的关系图，确定每个社区的黑样本浓度，结合社区黑样本浓度以及半监督机器学习算法，即使黑样本数量较少，本实施例中的方法也可以从未知样本中挖掘潜在黑样本，进而确定模型训练所需要的白样本，达到模型训练要求，使得训练出的模型能够准确地对样本是否属于黑样本的属性进行评估。

全部详细技术资料下载

【技术实现步骤摘要】
样本属性评估模型训练方法、装置及服务器
本说明书实施例涉及互联网
，尤其涉及一种样本属性评估模型训练方法、装置及服务器。
技术介绍
随着互联网的快速发展，越来越多的业务可以通过网络实现，如在线支付、在线购物、线上保险理赔等互联网业务。互联网在给人们生活提供便利的同时，也带来了风险。不法人员可能会进行电子业务欺诈，给其它用户造成损失。对于庞大的业务样本集而言，明确属性为黑的风险黑样本数量较少，大部分是未知属性的样本，由于业务欺诈数据样本具有隐藏性，所以，为了能够提升整体风控能力，亟需设计一种能够基于少量已知黑样本训练得到能够准确对未知样本进行属性评估的方案。
技术实现思路
本说明书实施例提供及一种样本属性评估方法、装置及服务器。第一方面，本说明书实施例提供一种样本属性评估方法，包括：确定与训练样本对应的关系图中每个社区的黑样本浓度，其中，所述训练样本包括黑样本和未知样本；基于所述每个社区的黑样本浓度，确定每个所述未知样本的白样本抽样概率，以每个所述未知样本的白样本抽样概率进行抽样，获得白样本；基于半监督机器学习算法对所述黑样本与所述白样本进行训练，获得目标样本属性评估模型。第二方面，本说明书实施例提供一种样本属性评估模型训练装置，包括：第一确定单元，用于确定与训练样本对应的关系图中每个社区的黑样本浓度，其中，所述训练样本包括黑样本和未知样本；第二确定单元，用于基于所述每个社区的黑样本浓度，确定每个所述未知样本的白样本抽样概率，以每个所述未知样本的白样本抽样概率进行抽样，获得白样本；训练单元，用于基半监督机器学习算法对所述黑样本与所述白样本进行训练，获得目标...

【技术保护点】
1.一种样本属性模型训练方法，包括：确定与训练样本对应的关系图中每个社区的黑样本浓度，其中，所述训练样本包括黑样本和未知样本；基于所述每个社区的黑样本浓度，确定每个所述未知样本的白样本抽样概率，以每个所述未知样本的白样本抽样概率进行抽样，获得白样本；基于半监督机器学习算法对所述黑样本与所述白样本进行训练，获得目标样本属性评估模型。

【技术特征摘要】
1.一种样本属性模型训练方法，包括：确定与训练样本对应的关系图中每个社区的黑样本浓度，其中，所述训练样本包括黑样本和未知样本；基于所述每个社区的黑样本浓度，确定每个所述未知样本的白样本抽样概率，以每个所述未知样本的白样本抽样概率进行抽样，获得白样本；基于半监督机器学习算法对所述黑样本与所述白样本进行训练，获得目标样本属性评估模型。2.根据权利要求1所述的方法，所述确定与训练样本对应的关系图中每个社区的黑样本浓度，包括：确定每个社区中所有黑样本对应节点在该社区总节点中的第一占比，将所述第一占比作为该社区的黑样本浓度；或确定每个社区中所有黑样本对应节点在所述关系图中总节点中的第二占比，将所述第一占比作为该社区的黑样本浓度；或确定每个社区中所有黑样本对应节点在该社区总节点中的第三占比，以及该社区总节点在所述关系图中的总节点中的第四占比，获得所述第三占比与所述第四占比的加权平均值，将所述加权平均值作为该社区的黑样本浓度。3.根据权利要求1所述的方法，所述基于半监督机器学习算法对所述黑样本与所述白样本进行训练，获得目标样本属性评估模型，包括：基于半监督机器学习算法对所述黑样本与所述白样本进行训练，获得样本属性评估模型；判断所述样本属性评估模型是否满足预设收敛条件；如果否，更新所述每个社区的黑样本浓度，基于更新后的每个社区的黑样本浓度与所述半监督机器学习算法继续训练，直至训练得到的样本属性评估模型满足所述预设收敛条件，将满足所述预设收敛条件的样本属性评估模型作为目标样本属性评估模型。4.根据权利要求3所述的方法，所述判断所述样本属性评估模型是否满足预设收敛条件，包括：基于所述样本属性评估模型对每个所述未知样本进行评估，获得每个所述未知样本的本轮属性评估结果，共计获得M个本轮属性评估结果，M为未知样本的个数；基于所述M个本轮属性评估结果与M个上一轮属性评估结果，判断所述样本属性评估模型是否满足预设收敛条件。5.根据权利要求4所述的方法，所述基于所述样本属性评估模型对每个所述未知样本进行评估，获得每个所述未知样本的本轮属性评估结果，包括：基于所述样本属性评估模型对每个所述未知样本进行评估，获得每个所述未知样本的黑样本评分，如果黑样本评分值大于预设分值，将该未知样本的属性信息标记为黑样本，其中，每个所述未知样本的本轮属性评估结果中包括该未知样本的属性信息。6.根据权利要求5所述的方法，所述基于所述M个本轮属性评估结果与M个上一轮属性评估结果，判断所述样本属性评估模型是否满足预设收敛条件，包括：判断每个未知样本的本轮属性评估结果中的属性信息与该未知样本的上一轮属性评估结果中的属性信息是否一致，如果是，表明所述本轮样本属性评估模型满足所述预设收敛条件。7.根据权利要求5所述的方法，所述更新所述每个社区的黑样本浓度，包括：基于所述M个本轮属性评估结果与M个上一轮属性评估结果，确定属性信息发生变化的未知样本；重新计算与所述属性信息发生变化的未知样本对应的社区的黑样本浓度。8.根据权利要求1-7中任一权利要求所述的方法，所述训练样本为申请理赔人员对应的保险数据，所述黑样本为骗保人员对应保险数据。9.一种样本属性评估方法，包括：根据权利要求1-7中任一权利要求所述的方法训练得到的目标样本属性评估模型，对新进样本进行评估，确定所述新进样本的评估结果，其中，所述评估结果...

【专利技术属性】
技术研发人员：王修坤，赵婷婷，刘斌，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人