类噪音检测方法、装置和损失函数计算方法、装置制造方法及图纸

技术编号:14946463 阅读:61 留言:0更新日期:2017-04-01 12:45
本申请公开了一种类噪音检测方法、装置和损失函数计算方法、装置。所述类噪音检测方法对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;之后利用来计算训练样本的噪音率Pc(xi)。本申请计算训练样本的噪音率过程中不需要任何先验知识,且计算出来的结果不存在传统技术中对于训练样本的类噪音往往过高估计的现象,因而能更加准确的反应出标注的训练样本其标签错误的概率。

【技术实现步骤摘要】

本申请涉及机器学习领域,尤其涉及一种类噪音检测方法、装置和损失函数计算方法、装置
技术介绍
在机器学习(Machinelearning)领域,主要有三类不同的学习方法:监督学习(Supervisedlearning)、半监督学习(Semi-supervisedlearning)和非监督学习(Unsupervisedlearning)。目前基于有标签数据的有监督学习方法是机器学习领域用于解决实际应用中分类问题的主流方法。此类方法利用训练数据中有标注的样本训练分类器,用于预测未标注样本的类别标签。但是,在实际应用问题中,来自人工标注或实验结果的样本标注,往往因为各种原因,存在一定比例的误标注情况,即用于训练的有标注样本其标注标签有一定比例的错误。针对这一情况,目前基于统计权重边切割的方法在解决这一问题上显示出了一定的能力。但是,这一方法往往依赖于先验知识,即数据的期望和方差的先验分布;其对噪音的估计往往比实际噪音比例要高,而过高的估计了噪音的比例则会影响最终用于训练数据的规模,这一现象往往比噪音本身对分类器性能的伤害更大。
技术实现思路
为解决上述问题,本申请提供一种类噪音检测方法、装置和损失函数计算方法、装置。根据本申请的第一方面,本申请提供一种类噪音检测方法,用于有监督学习中,包括以下步骤:最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;信号函数计算步骤:计算信号函数Iij,其中相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之间的相似度wij,wij=sim(xi,xj);l1范数计算步骤:计算l1范数||wi||1,其中l2范数计算步骤:计算l2范数||wi||2,其中噪音率计算步骤:计算所述训练样本的噪音率Pc(xi),其中Pc(xi)=]]>1-0.5×exp(-(Σj=1kwij·Iij)42(||wi||1||wi||2)2).]]>根据本申请的第二方面,本申请提供一种损失函数计算方法,包括以下步骤:使用如权利要求1至4中任一项所述的类噪音检测方法对所述优化学习方法中的原损失函数加权,以计算新损失函数计算公式为l~(f(xi),y~i)=(1-Pc(xi))l(f(xi),y~i)-Pc(xi)l(f(xi),-y~i)1-2(Σi′=1nPc(xi′)n),]]>其中n为训练集之中训练样本的总数。根据本申请的第三方面,本申请提供一种类噪音检测装置,用于有监督学习中,其特征在于,包括:最相似样本选择模块,用于对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;信号函数计算模块,用于计算信号函数Iij,其中相似度计算模块,用于分别计算所述训练样本与选择出的最相似的各样本之间的相似度wij,wij=sim(xi,xj);l1范数计算模块,用于计算l1范数||wi||1,其中l2范数计算模块,用于计算l2范数||wi||2,其中噪音率计算模块,用于计算所述训练样本的噪音率Pc(xi),其中Pc(xi)=1-0.5×exp(-(Σj=1kwij·Iij)42(||wi||1||wi||2)2).]]>根据本申请的第四方面,本申请提供一种损失函数计算装置,包括:一模块,其用于使用如权利要求8至9中任一项所述的类噪音检测模块对原损失函数加权,以计算新损失函数计算公式为l~(f(xi),y~i)=(1-Pc(xi))l(f(xi),y~i)-Pc(xi)l(f(xi),-y~i)1-2(Σi′=1nPc(xi′)n),]]>其中n为训练集之中训练样本的总数。本申请的有益效果是:依上述实施的类噪音检测方法和装置,计算训练样本的噪音率过程中不需要任何先验知识,且计算出来的结果不存在传统技术中对于训练样本的类噪音往往过高估计的现象,因而能更加准确的反应出标注的训练样本其标签错误的概率。依上述实施的损失函数计算方法和装置,由于对训练集的损失函数进行基于类噪音的加权,因而所训练的分类器具有良好的抗类噪音性能。附图说明图1为本申请一种实施例的类噪音检测方法的流程示意图;图2为本申请一种实施例的类噪音检测方法的结构示意图;图3为本申请一种实施例的结果性能说明图。具体实施方式下面通过具体实施方式结合附图对本申请作进一步详细说明。实施例一:基于有标签数据的有监督学习方法,利用训练数据中有标注的样本训练分类器,用于预测未标注样本的类别标签。这里样本可以看成是输入,样本的标签可以看成是输出,有标注的样本,是指已知一个样本和它的标签,从数学角度上看,就是已知输入和输出,因此,这些有标注的样本构成了训练集,利用已知的样本和其标签,可以训练分类器。这里的一个关键是,有标注的样本的正确性,即样本和其标签的正确性,若不正确,都会极大影响到所训练的分类器。对有监督学习中的分类问题,需要处理有标注的样本中,其中就可能存在有标注的样本的标签错误的情况,对于半监督分类问题,需要先处理无标注的样本,对无标注的样本的可能类别标签的判断可以会出现错误的情况;以上情况都需要识别出来。现有技术也尝试解决这一问题,但现有技术在解决此问题时,依赖于先验知识,即训练样本的期望和方差的先验分布,并且其对噪音的估计往往比实际噪音比例要高,而过高的估计了噪音的比例则会影响最终用于训练数据的规模,这一现象往往比噪音本身对分类器性能的伤害更大。为此,本申请提出一种类噪音检测方法,具体地,提出一种有监督学习中的类噪音检测方法。请参照图1,本实施的有监督学习中的类噪音检测方法包括以下步骤:S11、最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数。在一实施例中,上述的无参数分类方法为k近邻图方法或帕森窗方法。这里所选取的若干个样本以及k的值,依据所使用的无参数分类方法,有可能会有不同。S13、信号函数计算步骤:计算信号函数Iij,其中S15、相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之间的相似度wij,wij=sim(xi,xj)。在一实施例中,可采用可标准化的连续且对称的相似度计算方法来计算相似度wij。例如,相似度计算方本文档来自技高网...

【技术保护点】
一种类噪音检测方法,用于有监督学习中,其特征在于,包括以下步骤:最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;信号函数计算步骤:计算信号函数Iij,其中相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之间的相似度wij,wij=sim(xi,xj);l1范数计算步骤:计算l1范数||wi||1,其中l2范数计算步骤:计算l2范数||wi||2,其中噪音率计算步骤:计算所述训练样本的噪音率Pc(xi),其中Pc(xi)=]]>1-0.5×exp(-(Σj=1kwij·Iij)42(||wi||1||wi||2)2).]]>

【技术特征摘要】
1.一种类噪音检测方法,用于有监督学习中,其特征在于,包括以下步骤:
最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选
择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;
信号函数计算步骤:计算信号函数Iij,其中相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之间的
相似度wij,wij=sim(xi,xj);
l1范数计算步骤:计算l1范数||wi||1,其中l2范数计算步骤:计算l2范数||wi||2,其中噪音率计算步骤:计算所述训练样本的噪音率Pc(xi),其中Pc(xi)=]]>1-0.5×exp(-(Σj=1kwij·Iij)42(||wi||1||wi||2)2).]]>2.如权利要求1所述的类噪音检测方法,其特征在于,在最相似样本选择步骤中,所述
无参数分类方法为k近邻图方法或帕森窗方法。
3.如权利要求1所述的类噪音检测方法,其特征在于,在相似度计算步骤中,采用可标
准化的连续且对称的相似度计算方法来计算相似度wij。
4.如权利要求3所述的类噪音检测方法,其特征在于,所述相似度计算方法为基于汉明
距离的相似度计算方法、基于余弦的相似度计算方法、基于欧几里得距离的相似度计算方
法或基于ln范数的相似度计算方法。
5.一种损失函数计算方法,其特征在于,包括以下步骤:
使用如权利要求1至4中任一项所述的类噪音检测方法对原损失函数加权,以计
算新损失函数计算公式为其中n为训练集之中训练样本的总数。
6.一种类噪音检测装置,用于有监督学习中,其特征在于,包括:
最相似样本选择模块,用于对于训练集之中任一训练样本使用无参数分类方
法选择训练集之中与其最相似的若干个样本其中j=1、2、...

【专利技术属性】
技术研发人员:徐睿峰桂林杜嘉晨陆勤
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1