基于设置正负例错分值的百分比的可控置信机器算法制造技术

技术编号：11824868 阅读：85 留言：0更新日期：2015-08-05 03:12

本发明专利技术适用机器学习领域，提供了一种基于设置正负例错分值的百分比的可控置信机器算法，包括：根据样本训练集训练二元分类器，根据所述二元分类器在所述训练集Train Set上分类，并将分类结果转换成输出值；从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围，其中，所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值，所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值；根据所述阈值范围对未知样本的分类结果进行分配。本发明专利技术提供的技术方案具有控制精度，实现灵活控制的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习领域，尤其涉及一种基于设置正负例错分值的百分比的可控置信机器算法。
技术介绍
置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研宄时间不长的一个分支，实现置信机器学习的理论基础与方法并不多，有直接构造置信度的方法，有间接构造置信度的方法，有通过设置拒绝选项，可以进行预设的分类处理，来排除低可信的部分，从而提高剩余部分的可信度，实现置信分类，并对错分率可控。 2005 年由VladimirVovk，AlexanderGammerman，GlennShafer出版了关于信任机器学习的专著《AlgorithmicLearninginaRandomWorld》。2004年邱德红等在计算机研宄与发展期刊Vol. 41，No. 9中发表了《基于算法随机性理论和奇异描述的置信学习机器》，根据Kolmogorov算法随机性理论，为学习机器建立了一种置信机制，描述了置信学习机器的算法。现有的方案有以下几个问题： (1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率，并根据计算结果设置阈值，但最后正负例正确率控制与当初预设值比较，有时差距会很大。 (2)置信控制不够灵活。设置Bin的方法有一定的限制，不能任意设置数值，进行灵活多变的控制，满足不同的要求。
技术实现思路
本专利技术实施例的目的在于提供一种基于设置正负例的错分率百分比的可控置信机...

【技术保护点】
一种基于设置正负例错分值的百分比的可控置信机器算法，其特征在于，所述方法包括如下步骤：接收二元训练数据样本和二元训练样本标签构成的训练集Train Set；根据所述训练集Train Set训练二元分类器，得到二元分类器参数值；根据所述二元分类器在所述训练集Train Set上分类，并将分类结果转换成输出值Output score；从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围(‑t2,t1)，其中，所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值，所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值；获取未知二元样本，根据所述二元分类器对未知二元样本进行分类，并将分类结果转换成输出值Output score；如果所述未知二元样本的输出值Output score属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值Output Score不属于该阈值范围，将未知样本分配到接受域。

【技术特征摘要】

【专利技术属性】
技术研发人员：蒋方纯，
申请(专利权)人：深圳信息职业技术学院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人