The embodiment of this specification provides a training sample acquisition method, a sample prediction method and a corresponding device. The training sample acquisition method includes: firstly, the labeled sample set is acquired, in which the sample features are divided into n groups of features, thus forming n sub-labeled sample sets. Using n sub-labeled sample sets, n sub-models are trained. Then, an unlabeled first sample is obtained, which includes corresponding N sets of features. In the same book (n 1) group features except group I features are input to (n 1) sub-models of N sub-models except group I sub-models, and (n 1) scores are obtained respectively. Then, based on this (n 1) score, the first comprehensive score is obtained, and when the first comprehensive score satisfies the predetermined conditions, the first label is added to the group I feature of the first sample, thus forming the first sub-labeled sample. Therefore, the first sub-annotated sample can be added to the first sub-annotated sample set to update the annotated sample set.
【技术实现步骤摘要】
训练样本获取方法,样本预测方法及对应装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及利用机器学习模型进行异常样本预测,以及为该机器学习模型获取训练样本的方法和装置。
技术介绍
随着互联网的发展,移动支付的普及,基于支付宝等app的移动支付手段越受青睐。然而,与此同时,相关的问题接踵而至,对于移动支付平台而言,一个重要的威胁来自于非法账户的存在以及其恶性发展。非法用户注册大量的备用账户,并通过非法手段进行花呗套现等行为,这对于移动支付平台而言是极大的威胁。对于非法账户的检测以及对其潜在非法行为的禁止,对于构建更为安全稳定的移动支付平台,减少相关平台的经济损失,具有重要意义。目前业界对于非法账户检测的系统,几乎都是依赖于规则实现,如此的系统只能覆盖极少的非法账户类型,对于潜在非法账户,很难做到及时的发现。而基于机器学习的方法,大部分都采用监督学习的方式,即利用完全标注的数据来学习,此时需要花费极大的时间和精力来进行数据标注,在互联网的场景下很难做到。类似的情况也存在于其他样本场景中,例如检测网络访问样本是否为正常访问。因此,希望能有改进的方案,更加有效地对异常 ...
【技术保护点】
1.一种获取训练样本的方法,包括:获取标注样本集,所述标注样本集包括M个标注样本,每个标注样本包括样本特征,以及该样本是否为异常样本的样本标签,其中所述样本特征按照预定分组规则被划分为n组特征,其中n为大于2的自然数;形成n个子标注样本集,其中第i个子标注样本集包括M个子标注样本,每个子标注样本包括所述n组特征中的第i组特征作为子样本特征,以及所述样本标签作为其子样本标签;分别利用所述n个子标注样本集训练得到n个子模型,其中第i子模型用于基于第i组特征预测对应样本为异常样本的概率;获取多个未标注样本,每个未标注样本包括按照所述预定分组规则进行划分的n组特征,所述多个未标注样 ...
【技术特征摘要】
1.一种获取训练样本的方法,包括:获取标注样本集,所述标注样本集包括M个标注样本,每个标注样本包括样本特征,以及该样本是否为异常样本的样本标签,其中所述样本特征按照预定分组规则被划分为n组特征,其中n为大于2的自然数;形成n个子标注样本集,其中第i个子标注样本集包括M个子标注样本,每个子标注样本包括所述n组特征中的第i组特征作为子样本特征,以及所述样本标签作为其子样本标签;分别利用所述n个子标注样本集训练得到n个子模型,其中第i子模型用于基于第i组特征预测对应样本为异常样本的概率;获取多个未标注样本,每个未标注样本包括按照所述预定分组规则进行划分的n组特征,所述多个未标注样本包括第一样本;将所述第一样本的n组特征中除第i组特征外的(n-1)组特征,分别对应输入所述n个子模型中除第i子模型外的(n-1)个子模型,分别得到所述(n-1)个子模型对该第一样本的(n-1)个打分,所述打分表示该第一样本为异常样本的概率;基于所述(n-1)个打分,得到针对第i组特征的第一综合分;在所述第一综合分满足预定条件的情况下,为所述第一样本的第i组特征添加第一标签,所述第i组特征和所述第一标签形成第一子标注样本;将所述第一子标注样本添加到所述第i个子标注样本集,以更新所述第i个子标注样本集。2.根据权利要求1所述的方法,其中所述样本特征包括,与账户信息相关联的特征,所述n组特征包括以下特征组中的多个:样本对应的用户的基本属性特征;用户的历史行为特征;用户的关联关系特征;用户的交互特征。3.根据权利要求1所述的方法,其中基于所述(n-1)个打分,得到针对第i组特征的第一综合分包括:对所述(n-1)个打分求和,将和值作为所述第一综合分;或者对所述(n-1)个打分求平均,将平均值作为所述第一综合分。4.根据权利要求1所述的方法,其中在所述第一综合分满足预定条件的情况下,为所述第一样本的第i组特征添加第一标签包括:在所述第一综合分高于第一阈值的情况下,为所述第一样本的第i组特征添加异常样本的标签;在所述第一综合分低于第二阈值的情况下,为所述第一样本的第i组特征添加正常样本的标签,所述第二阈值小于所述第一阈值。5.根据权利要求1所述的方法,还包括,针对所述多个未标注样本,对应得到针对第i组特征的多个综合分;所述在所述第一综合分满足预定条件的情况下,为所述第一样本的第i组特征添加第一标签包括:如果所述第一综合分在所述多个综合分的从大到小排序中位于前端的第一数目之内,为所述第一样本的第i组特征添加异常样本的标签;如果所述第一综合分在所述多个综合分的从大到小排序中位于后端的第二数目之内,为所述第一样本的第i组特征添加正常样本的标签。6.根据权利要求1所述的方法,还包括,用更新后的第i个子标注样本集,再次训练所述第i子模型。7.一种样本预测方法,包括:获取待测样本的样本特征;按照预定分类规则将所述样本特征划分为n组特征;将所述n组特征分别输入n个子模型,得到所述n个子模型对所述待测样本异常概率的n个打分,所述n个子模型利用权利要求1的方法所获取的训练样本训练得到;根据所述n个打分,确定所述待测样本的总得分;根据所述总得分,确定所述待测样本的预测结果。8.根据权利要求7所述的方法,其中根据所述n个打分,确定所述样本的总得分包括:对所述n个打分求和,将和值作为总得分;或者对所述n个打分求平均,将均值作为总得分。9.根据权利要求7所述的方法,其中根据所述总得分,确定所述待测样本的预测结果包括:在所述总得分大于预定阈值的情况下,确定所述待测样本为异常样本。10.根据权利要求7所述的方法,其中根据所述总得分,确定所述待测样本的预测结果包括:根据所述总得分,确定所述待测样本为异常样本的概率值,将该概率值作为预测结果。11.一种获取训练样本的装置,包括:标注样本获取单元,配置为获取标注样本集,所述标注样本集包括M个标注样本,每个标注样本包括样本特征,以及该...
【专利技术属性】
技术研发人员:张雅淋,周俊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。