【技术实现步骤摘要】
样本标签不确定情况下的边界树K近邻决策方法及系统
本专利技术涉及机器学习
,具体地,涉及一种样本标签不确定情况下的边界树K近邻决策方法及系统。
技术介绍
K近邻决策方法作为一种典型的机器学习算法被广泛应用各种场景。K近邻决策方法的流程是:对于一个容量给定的样本集合以及一个待预测的样本,在样本集合中找到与待预测样本最相似的K个近邻,再根据这些近邻的标签来对待预测样本进行决策。传统的K近邻决策方法有以下两个问题:1、忽略了近邻样本标签的不确定性:许多现实问题中每一个样本可能不同的专家标注了不同的标签;2、K近邻决策方法具有较高的时间复杂度:待预测样本需要与每个历史样本计算相似性,过大的样本集合会引起极大的延长计算耗时。本专利技术通过模型对样本标签专家意见的一致程度进行分析,确定其标签的不确定性。在量化样本标签不确定性的基础上,本专利技术构造了一种样本标签不确定感知的边界树算法。普通的边界树算法是一种基于贪心策略的快速K近邻决策方法,它有两个问题:1、遍历的过程中没有考虑样本标
【技术保护点】
1.一种样本标签不确定情况下的边界树K近邻决策方法,其特征在于,包括:/n初始化步骤:在样本集合中任选一个样本作为生成边界树的起始结点,所述生成边界树的起始结点也是边界树的根结点;/n遍历步骤:从根结点开始,按照预设规则寻找遍历的终止结点;/n决策步骤:对待预测结点进行预测分类;/n结束步骤:对预测分类进行判定。/n
【技术特征摘要】
1.一种样本标签不确定情况下的边界树K近邻决策方法,其特征在于,包括:
初始化步骤:在样本集合中任选一个样本作为生成边界树的起始结点,所述生成边界树的起始结点也是边界树的根结点;
遍历步骤:从根结点开始,按照预设规则寻找遍历的终止结点;
决策步骤:对待预测结点进行预测分类;
结束步骤:对预测分类进行判定。
2.根据权利要求1所述的样本标签不确定情况下的边界树K近邻决策方法,其特征在于,所述遍历步骤包括:从根结点开始,按照预设规则在结点集合中进行结点转移;
所述结点集合包括当前遍历到的结点和所有孩子结点;
根据结点集合中的每一个结点与待预测结点的距离和结点与标签不确定性,找到符合预设的结点作为本次遍历的终止结点。
3.根据权利要求1所述的样本标签不确定情况下的边界树K近邻决策方法,其特征在于,所述遍历步骤包括:以递归的方式执行,当当前遍历的终止结点与上一次遍历的终止结点保持一致时,或者当当前遍历的终止结点是边界树的叶子结点时,终止遍历步骤并执行决策步骤。
4.根据权利要求1所述的样本标签不确定情况下的边界树K近邻决策方法,其特征在于,所述决策步骤包括:将遍历的终止结点的标签不确定性与遍历的终止结点和待预测结点之间的距离进行结合,对待预测结点进行预测分类。
5.根据权利要求1所述的样本标签不确定情况下的边界树K近邻决策方法,其特征在于,所述结束步骤包括:将预测分类与实际分类进行比较,当预测分类与实际分类一致时终止结束步骤,否则,将待预测结点作为最后一个遍历的终止结点的孩子结点。
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。