【技术实现步骤摘要】
一种二分类器的训练方法、装置、及计算机设备
本说明书实施例涉及数据处理
,尤其涉及一种二分类器的训练方法、装置、及计算机设备。
技术介绍
传统的机器学习模型都是建立在训练数据和测试数据服从相同的数据分布的基础上,例如有监督学习,但是,在诸多情况下,训练数据和测试数据并不满足服从相同的数据分布这一假设,从而,利用基于训练数据所得到的二分类器对测试数据进行分类的结果很可能并不准确,基于此,相关技术中提出了TraAdaboost算法,在该算法中,根据每次训练集中每个样本的分类是否正确,以及上次总体分类的错误率,来调整每个样本的权重,以实现通过改变数据分布得到一个分类效果更佳的二分类器。然而,若训练数据中正类样本和负类样本各自的比例并不均衡,例如,正类样本占1%,负类样本占99%,那么,上述TraAdaboost算法则倾向于将少数类样本划分到多数类样本,以保证训练得出的二分类器在整体上具有较高的分类准确率,由此可见,针对不平衡的训练数据,利用TraAdaboost算法所训练出的二分类模型的性能欠佳。
技术实现思路
针对上述技术问题,本说明书实施例提供一种二分类器的训练方法、装置、及计算机设备,技术方案如下:根据本说明书实施例的第一方面,提供一种二分类器的训练方法,所述方法包括:利用以下步骤进行迭代处理,直至迭代次数达到预设的次数阈值:利用设定的学习算法与训练样本集进行训练,得到弱分类器,所述训练样本集中包括多个训练样本,所述多个训练样本中的任一训练样本具有权重;基于所述弱分类器的受试者工作特征ROC曲线确定所述弱分类器的分类阈值;得到所述弱分类器利用所述分类阈值 ...
【技术保护点】
1.一种二分类器的训练方法,所述方法包括:利用以下步骤进行迭代处理,直至迭代次数达到预设的次数阈值:利用设定的学习算法与训练样本集进行训练,得到弱分类器,所述训练样本集中包括多个训练样本,所述多个训练样本中的任一训练样本具有权重;基于所述弱分类器的受试者工作特征ROC曲线确定所述弱分类器的分类阈值;得到所述弱分类器利用所述分类阈值对所述训练样本集的指定部分样本子集中任一训练样本的分类结果;基于所述分类结果对所述多个训练样本中的任一训练样本的权重进行调整;迭代结束后,对每一次迭代得到的弱分类器进行整合得到二分类器。
【技术特征摘要】
1.一种二分类器的训练方法,所述方法包括:利用以下步骤进行迭代处理,直至迭代次数达到预设的次数阈值:利用设定的学习算法与训练样本集进行训练,得到弱分类器,所述训练样本集中包括多个训练样本,所述多个训练样本中的任一训练样本具有权重;基于所述弱分类器的受试者工作特征ROC曲线确定所述弱分类器的分类阈值;得到所述弱分类器利用所述分类阈值对所述训练样本集的指定部分样本子集中任一训练样本的分类结果;基于所述分类结果对所述多个训练样本中的任一训练样本的权重进行调整;迭代结束后,对每一次迭代得到的弱分类器进行整合得到二分类器。2.根据权利要求1所述的方法,所述基于所述弱分类器的ROC曲线确定所述弱分类器的分类阈值,包括:针对所述弱分类器的ROC曲线上的每一数据点,计算出所述数据点与指定坐标点之间的距离,其中,所述指定坐标点的纵轴坐标值为指定覆盖率,所述指定坐标点的横轴坐标值为1减去指定打扰率;确定出与指点坐标点之间的距离最小的数据点;基于所确定出的数据点确定所述弱分类器的分类阈值。3.根据权利要求1所述的方法,所述基于所述弱分类器的ROC曲线确定所述弱分类器的分类阈值,包括:针对所述弱分类器的ROC曲线上的每一数据点,利用设定算法对所述数据点的纵轴坐标值与横轴坐标值进行运算;确定出运算结果最大的数据点;基于所确定出的数据点确定所述弱分类器的分类阈值。4.根据权利要求1所述的方法,所述基于所述弱分类器的ROC曲线确定所述弱分类器的分类阈值,包括:利用所述弱分类器计算出所述多个训练样本中任一训练样本的样本得分,并基于所述样本得分对所述训练样本进行判定,将判定结果作为是否针对所述样本执行指定事件的依据;估计所述多个训练样本的指定指标的密度函数,将所述指定指标的密度函数作为ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;利用所述ROC曲线调整因子、所述多个训练样本对所述弱分类器的ROC曲线进行调整;基于调整后的ROC曲线确定所述弱分类器的分类阈值。5.根据权利要求1所述的方法,所述方法还包括:迭代结束后,输出所述多个训练样本中的任一训练样本的当前权重。6.根据权利要求1所述的方法,所述方法还包括:将测试样本集中的任一测试样本输入所述二分类器,得到所述任一测试样本的样本得分。7.根据权利要求1所述的方法,所述设定的学习算法至少为下述其中一项:支持向量机SVM算法、逻辑回归算法。8.一种二分类器的训练装置,所述装置包括:训练模块,用于利用设定的学习算法与训练样本集进行训练,得到弱分类器,所述训练样本集中包括多个训练样本,所述多个训练样本中的任一训练样本具有权重;确定模...
【专利技术属性】
技术研发人员:宋博文,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。