基于设置正负例错分值的百分比的可控置信机器算法制造技术

技术编号:11824868 阅读:85 留言:0更新日期:2015-08-05 03:12
本发明专利技术适用机器学习领域,提供了一种基于设置正负例错分值的百分比的可控置信机器算法,包括:根据样本训练集训练二元分类器,根据所述二元分类器在所述训练集Train Set上分类,并将分类结果转换成输出值;从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围,其中,所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值;根据所述阈值范围对未知样本的分类结果进行分配。本发明专利技术提供的技术方案具有控制精度,实现灵活控制的优点。

【技术实现步骤摘要】

本专利技术属于机器学习领域,尤其涉及一种基于设置正负例错分值的百分比的可控 置信机器算法。
技术介绍
置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断 或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着 重要的现实意义。置信机器是机器学习领域中研宄时间不长的一个分支,实现置信机器学 习的理论基础与方法并不多,有直接构造置信度的方法,有间接构造置信度的方法,有通过 设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信 度,实现置信分类,并对错分率可控。 2005 年由VladimirVovk,AlexanderGammerman,GlennShafer出版了关于信任 机器学习的专著《AlgorithmicLearninginaRandomWorld》。2004年邱德红等在计算 机研宄与发展期刊Vol. 41,No. 9中发表了《基于算法随机性理论和奇异描述的置信学习机 器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习 机器的算法。 现有的方案有以下几个问题: (1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法 来计算错分率,并根据计算结果设置阈值,但最后正负例正确率控制与当初预设值比较,有 时差距会很大。 (2)置信控制不够灵活。设置Bin的方法有一定的限制,不能任意设置数值,进行 灵活多变的控制,满足不同的要求。
技术实现思路
本专利技术实施例的目的在于提供一种基于设置正负例的错分率百分比的可控置信 机器算法,其解决现有技术的置信控制的精度不够,置信控制不够灵活的问题。 本专利技术实施例是这样实现的,一方面,公开了一种基于设置正负例错分值的百分 比的可控置信机器算法,所述方法包括如下步骤: 接收二元训练数据样本和二元训练样本标签构成的训练集TrainSet; 根据所述训练集TrainSet训练二元分类器,得到二元分类器参数值; 根据所述二元分类器在所述训练集TrainSet上分类,并将分类结果转换成输出 值Outputscore; 从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步 增加第二距离的步长,确定满足要求的阈值范围(_t2,tl),其中,所述第一距离为原点至正 例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最 大的Score值的距离的第二预定比例值; 获取未知二元样本,根据所述二元分类器对未知二元样本进行分类,并将分类结 果转换成输出值Outputscore; 如果所述未知二元样本的输出值Outputscore属于该阈值范围,将未知样本分配 到拒绝域,如未知二元样本的输出值OutputScore不属于该阈值范围,将未知样本分配到 接受域。 优选的,所述从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出 发,向右逐步增加第二距离的步长,确定满足要求的阈值范围步骤为: 根据所述第一距离、第二距离的步长和预设的正确率,以原点为基准,以第一距离 的步长逐步向左、以第二距离的步长向右逐步移动阈值范围,当移动的阈值范围对应的正 确率大于预设的正确率时,确定阈值(-t2,tl)为未知二元样本对应的阈值范围。 在本专利技术实施例中,本专利技术提供的技术方案通过分别设置正负例错分率的百分比 作为移动步长,可以根据需要灵活设置数值,控制灵活,而且通过调整所述百分比值控制步 长,可以实现更高精度的置信控制。【附图说明】 图1是本专利技术提供的一种 的流程图。【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。 本专利技术【具体实施方式】提供一种基于设置正负例错分值的百分比的可控置信机器 算法,上述方法由置信机器执行,该方法如图1所示,包括如下步骤: 在步骤S101中,接收二元训练数据样本和二元训练样本标签构成的训练集Train Set; 在步骤S102中,根据所述训练集TrainSet训练二元分类器,得到二元分类器参 数值; 在步骤S103中,根据所述二元分类器在所述训练集TrainSet上分类,并将分类 结果转换成输出值Outputscore; 在步骤S104中,从原点出发向左,通过逐步增加第一距离的步长,以及通过以原 点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围(_t2,tl),其中,所述第 一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原 点至负例错分的最大的Score值的距离的第二预定比例值; 在步骤S105中,获取未知二元样本,根据所述二元分类器对未知二元样本进行分 类,并将分类结果转换成输出值Outputscore; 在步骤S106中,如果所述未知二元样本的输出值Outputscore属于该阈值范围, 将未知样本分配到拒绝域,如未知二元样本的输出值OutputScore不属于该阈值范围,将 未知样本分配到接受域。 本专利技术提供的具体方案通过分别设置正负例错分率的百分比作为移动步长,可以 根据需要灵活设置数值,控制灵活,而且通过调整所述百分比值控制步长,可以实现更高精 度的置信控制。 可选的,所述从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出 发,向右逐步增加第二距离的步长,确定满足要求的阈值范围步骤为: 根据所述第一距离、第二距离的步长和预设的正确率,以原点为基准,以第一距离 的步长逐步向左、以第二距当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于设置正负例错分值的百分比的可控置信机器算法,其特征在于,所述方法包括如下步骤:接收二元训练数据样本和二元训练样本标签构成的训练集Train Set;根据所述训练集Train Set训练二元分类器,得到二元分类器参数值;根据所述二元分类器在所述训练集Train Set上分类,并将分类结果转换成输出值Output score;从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围(‑t2,t1),其中,所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值;获取未知二元样本,根据所述二元分类器对未知二元样本进行分类,并将分类结果转换成输出值Output score;如果所述未知二元样本的输出值Output score属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值Output Score不属于该阈值范围,将未知样本分配到接受域。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋方纯
申请(专利权)人:深圳信息职业技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1