【技术实现步骤摘要】
本申请涉及机器学习领域,尤其涉及一种类噪音检测方法、装置和损失函数计算方法、装置。
技术介绍
在机器学习(Machinelearning)领域,主要有三类不同的学习方法:监督学习(Supervisedlearning)、半监督学习(Semi-supervisedlearning)和非监督学习(Unsupervisedlearning)。目前基于有标签数据的有监督学习方法是机器学习领域用于解决实际应用中分类问题的主流方法。此类方法利用训练数据中有标注的样本训练分类器,用于预测未标注样本的类别标签。但是,在实际应用问题中,来自人工标注或实验结果的样本标注,往往因为各种原因,存在一定比例的误标注情况,即用于训练的有标注样本其标注标签有一定比例的错误。针对这一情况,目前基于统计权重边切割的方法在解决这一问题上显示出了一定的能力。但是,这一方法往往依赖于先验知识,即数据的期望和方差的先验分布;其对噪音的估计往往比实际噪音比例要高,而过高的估计了噪音的比例则会影响最终用于训练数据的规模,这一现象往往比噪音本身对分类器性能的伤害更大。
技术实现思路
为解决上述问题,本申请提供一种类噪音检测方法、装置和损失函数计算方法、装置。根据本申请的第一方面,本申请提供一种类噪音检测方法,用于有监督学习中,包括以下步骤:最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干 ...
【技术保护点】
一种类噪音检测方法,用于有监督学习中,其特征在于,包括以下步骤:最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;信号函数计算步骤:计算信号函数Iij,其中相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之间的相似度wij,wij=sim(xi,xj);l1范数计算步骤:计算l1范数||wi||1,其中l2范数计算步骤:计算l2范数||wi||2,其中噪音率计算步骤:计算所述训练样本的噪音率Pc(xi),其中Pc(xi)=]]>1-0.5×exp(-(Σj=1kwij·Iij)42(||wi||1||wi||2)2).]]>
【技术特征摘要】
1.一种类噪音检测方法,用于有监督学习中,其特征在于,包括以下步骤:
最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选
择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;
信号函数计算步骤:计算信号函数Iij,其中相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之间的
相似度wij,wij=sim(xi,xj);
l1范数计算步骤:计算l1范数||wi||1,其中l2范数计算步骤:计算l2范数||wi||2,其中噪音率计算步骤:计算所述训练样本的噪音率Pc(xi),其中Pc(xi)=]]>1-0.5×exp(-(Σj=1kwij·Iij)42(||wi||1||wi||2)2).]]>2.如权利要求1所述的类噪音检测方法,其特征在于,在最相似样本选择步骤中,所述
无参数分类方法为k近邻图方法或帕森窗方法。
3.如权利要求1所述的类噪音检测方法,其特征在于,在相似度计算步骤中,采用可标
准化的连续且对称的相似度计算方法来计算相似度wij。
4.如权利要求3所述的类噪音检测方法,其特征在于,所述相似度计算方法为基于汉明
距离的相似度计算方法、基于余弦的相似度计算方法、基于欧几里得距离的相似度计算方
法或基于ln范数的相似度计算方法。
5.一种损失函数计算方法,其特征在于,包括以下步骤:
使用如权利要求1至4中任一项所述的类噪音检测方法对原损失函数加权,以计
算新损失函数计算公式为其中n为训练集之中训练样本的总数。
6.一种类噪音检测装置,用于有监督学习中,其特征在于,包括:
最相似样本选择模块,用于对于训练集之中任一训练样本使用无参数分类方
法选择训练集之中与其最相似的若干个样本其中j=1、2、...
【专利技术属性】
技术研发人员:徐睿峰,桂林,杜嘉晨,陆勤,
申请(专利权)人:哈尔滨工业大学深圳研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。