【技术实现步骤摘要】
基于无偏正样本学习算法PU_AUL的样本分类方法和装置
本申请涉及半监督学习
,尤其涉及基于无偏正样本学习算法PU_AUL的样本分类方法和装置。
技术介绍
机器学习领域内一类常见的问题是半监督学习问题,而正样本-无标签样本学习(正样本学习)属于半监督学习的一个特殊情况。在正样本学习问题中所面对的数据集中只包含正样本和无标签样本。这类问题的例子有金融交易数据中的欺诈交易鉴别、文本分类、基因排序问题等。正样本学习使用的数据中显式负样本信息的缺失会给模型的训练带来一定困难。现在主流的正样本学习算法主要包括:两步法、有偏学习法和无偏学习法等。其中两步法需要迭代运行算法时间开销较大,并且不保证最终模型性能;有偏学习法对最终模型是否无偏同样没有保证;无偏学习法先求得无偏损失函数再对模型进行训练一定程度上保证了最终模型的正确性,是一种较为主流的方法。但无偏学习法计算无偏损失函数时大多需要使用混合比例估计算法(MPE算法)对无标签样本中正样本的混合比例进行估计。目前的MPE算法一方面精度还不够高(0.1的误差),另一方面还会引 ...
【技术保护点】
1.一种基于无偏正样本学习算法PU_AUL的样本分类方法,其特征在于,包括以下步骤:/n获取标签样本集,所述标签样本集包括多个待预测样本;/n根据预设的分类模型,对所述多个待预测样本进行评分,以获取所述待预测样本对应的评价结果;/n根据所述待预测样本的评价结果和分类阈值确定所述待预测样本的样本类型,所述样本类型包括正样本和负样本。/n
【技术特征摘要】
1.一种基于无偏正样本学习算法PU_AUL的样本分类方法,其特征在于,包括以下步骤:
获取标签样本集,所述标签样本集包括多个待预测样本;
根据预设的分类模型,对所述多个待预测样本进行评分,以获取所述待预测样本对应的评价结果;
根据所述待预测样本的评价结果和分类阈值确定所述待预测样本的样本类型,所述样本类型包括正样本和负样本。
2.如权利要求1所述的方法,其特征在于,所述待预测样本的评价结果包括所述待预测样本的评分,所述根据所述待预测样本的评价结果和分类阈值确定所述待预测样本的样本类型,包括:
对所述待预测样本的评分与所述分类阈值进行比较,当所述评分小于所述分类阈值时,确定所述待预测样本为负样本,当所述评分大于等于所述分类阈值时,确定所述待预测样本为正样本。
3.如权利要求1或2所述的方法,其特征在于,在所述根据预设的分类模型,对所述多个待预测样本进行评分之前,还包括:
训练所述分类模型;
所述训练所述分类模型包括:
获取训练数据集,所述训练数据集为正样本-无标签样本数据集;
将所述训练数据集输入所述PU_AUL算法,输出最优的所述二分类模型,完成训练,其中,所述PU_AUL算法使用最小化结构化风险函数来获得所述二分类模型。
4.如权利要求3所述的方法,其特征在于,所述最小化结构...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。