一种在噪音标注下能够有效识别模型未知错误的方法技术

技术编号:19594096 阅读:19 留言:0更新日期:2018-11-28 05:07
本发明专利技术公开了一种在噪音标注下能够有效识别模型未知错误的方法,其特点是在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误。本发明专利技术与现有技术相比具有对模型假设的要求低,只需未知错误不是均匀分布在特征空间上即可,实施简单,易于部署到真实任务中去,在有限的预算和固定错误标注率下发现更多模型的未知错误,同时能够做到发现的未知错误中真正意义上是模型本身存在而不是因为错误标注导致的未知错误的比率高。

【技术实现步骤摘要】
一种在噪音标注下能够有效识别模型未知错误的方法
本专利技术涉及机器学习下的模型诊断和主动学习
,尤其是一种在噪音标注下能够有效识别模型未知错误的方法。
技术介绍
在机器学习任务中,很多预测模型在原始实验测试集上经常会有比较好的预测结果,但是当部署到现实环境中去后,由于收集到的训练集和正式数据集之前的分布存在差异会导致模型的预测结果比实验结果要差。同时,在一些高风险的任务中(比如医疗诊断),一些结果的预测错误所造成的实际影响会比其他任务大很多,有些甚至是灾难性的。其中一种常见的错误例子就是模型对于一个实例预测错误同时给予非常高的置信度(被称作UnknownUnknowns)。这类错误的产生原因大多是因为原始训练数据集相对现实世界分布上存在偏差,想从训练数据分布上去弥补这类问题例子的出现是非常困难的。目前,一般的风险控制方法(比如提高阈值)对于这类错误例子来说效果也是有限的。因此,从模型诊断的角度出发,要想保证模型在真实世界中的预测性能需要对这些未知错误进行识别,由于这些未知错误是模型高自信的,因此仅借助于模型本身是无法做到对他们的有效识别,引入众包机制对于识别未知错误一种比较有前途的做法。但是由于人在标注的时候会因为各种因素导致标注错误的发生,而这些错误标注导致的未知错误对于整个识别系统来讲危害是极大的。现有技术不能有效且能够对错误标注有鲁棒性的识别未知错误错误方法。
技术实现思路
本专利技术的目的是针对现有技术的不足而设计的一种在噪音标注下能够有效识别模型未知错误的方法,采用动态最近邻算法和众包机制,在有错误标注情况下,对模型进行有效的未知错误识别检测,降低噪音标注导致的伪未知错误对于标识算法的影响,在有限的预算和固定错误标注率下发现更多模型的未知错误,同时能够做到发现的未知错误中真正意义上是模型本身存在而不是因为错误标注导致的未知错误的比率高,大大提高了模型的预测结果,效率高,准确性好,使预测结果更符合或接近现实,为用户提供真实、有效的信息和预测。本专利技术的目的是这样实现的:一种在噪音标注下能够有效识别模型未知错误的方法,其特点是在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误,其具体识别按下述步骤进行:步骤a:在每次查询的时候从未标注过的样本中随机或者挑选当前最有可能是模型未知错误的样本。步骤b:在挑选当前最有可能是模型未知错误的时候,借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响,同时能够做到高效利用已经标注过的样本信息,具体为:(1)、对于每一个已经查询过的点统计附近最近K个被查询过的点是否是未知错误的情况;(2)、拿周围点是未知错误的比率作为该点是未知错误的概率评估;(3)、用该后验估计作为这个点附近最近一个点是否是未知错误的概率近似,同时也是该点是否是由于错误标注导致的伪未知错误的后验估计;(4)、拿每个邻近点的概率估计作为依据,挑出最有可能是未知错误的点进行查询。步骤c:制定贪心策略在随机探索以及有效利用之间进行取舍,对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误。本专利技术与现有技术相比具有对模型假设的要求低,只需未知错误不是均匀分布在特征空间上即可,实施简单,易于部署到真实任务中去,在有限的预算和固定错误标注率下发现更多模型的未知错误,同时能够做到发现的未知错误中真正意义上是模型本身存在而不是因为错误标注导致的未知错误的比率高。附图说明图1为本专利技术操作流程示意图。具体实施方式实施例1以下通过下表1算法伪代码图的具体实施例,对本专利技术的制备和应用作进一步的详细说明。表1:算法伪代码图表参阅上述表1,本专利技术的具体识别按下述步骤进行:步骤a:在每次查询的时候从未标注过的样本中随机或者挑选当前最有可能是模型未知错误的样本。步骤b:在挑选当前最有可能是模型未知错误的时候,借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响,同时能够做到高效利用已经标注过的样本信息,具体为:(1)、对于每一个已经查询过的点统计附近最近K个被查询过的点是否是未知错误的情况。(2)、拿周围点是未知错误的比率作为该点是未知错误的概率评估;(3)用该后验估计作为这个点附近最近一个点是否是未知错误的概率近似,同时也是该点是否是由于错误标注导致的伪未知错误的后验估计。(4)、拿每个邻近点的概率估计作为依据,挑出最有可能是未知错误的点进行查询。步骤c:制定合理的贪心策略在随机探索以及有效利用之间进行取舍,对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误。参阅附图1,本专利技术首先需要指定一批数据集,模型对他们的预测结果(包括预测的标签和对应的模型置信度),同时指定随机探索和有效利用之前信息间的权衡序列,其具体操作如下:(1)、首先在每一步做随机选择,以∈(t)的概率随机从未标注的样例池中挑选一个进行标注,每个样本被挑选的概率相同,或者以1-∈(t)的概率选择当前信息下未标注的样例池中最有可能是未知错误的样例进行标注。(2)、∈(t)为t时刻时的取舍策略,为了是同时兼顾探索新类型未知错误和利用已有信息挖掘出最有可能是未知错误的样例。(3)、根据挑选出来的样例的查询Oracle结果更新已有的先验预测模型其中:是一个指示函数判断x′是否是一个未知错误,Oα(x′)为错误标注率为α的标注结果,c是模型感兴趣的标签。同时,为在未标注过的样例池D中离x最近的样例,为两者之间的特征空间距离。因此,就是x为未知错误的概率。(4)、因为是一种基于动态最近邻的方法计算得到的概率近似,因此在对于错误标注导致的伪未知错误能够比较有效地甄别,同时在选择最有可能是未知错误的样例时是挑选最大概率的样例,这样可以保证算法能够以较低的概率挑选错误估计导致的错误选择样例。(5)、最后根据预算进行B轮查询,得到最终的累积效用值其中:其中cost(x(t))为对x(t)进行标注的成本,λ和β为超参用来惩罚算法对非未知错误和伪未知错误的判别结果,y(t)为x(t)的正确标签。上述操作完成了一种能够对存在错误标注的Oracle进行有效适应,同时能够保证在有限的预算下有效识别模型的未知错误,本专利技术对于模型假设要求低,只需要未知错误不是均匀分布在特征空间上即可,实施简单,易于部署到真实任务中去。以上仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡为本专利技术等效实施或等同替换的任何修改等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种在噪音标注下能够有效识别模型未知错误的方法,其特征在于在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误,其具体识别按下述步骤进行:步骤a:每次查询的时候从未标注过的样本中随机或挑选当前最有可能是模型未知错误的样本;步骤b:挑选当前最有可能是模型未知错误的时候,借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响,同时能够做到利用已经标注过的样本信息,具体为:(1)、对于每一个已经查询过的点统计附近最近K个被查询过的点是否是未知错误的情况;(2)、拿周围点是未知错误的比率作为该点是未知错误的概率评估;(3)、用该后验估计作为这个点附近最近一个点是否是未知错误的概率近似,同时也是该点是否是由于错误标注导致的伪未知错误的后验估计;(4)、拿每个邻近点的概率估计作为依据,挑出最有可能是未知错误的点进行查询;步骤c:制定贪心策略在随机探索以及利用之间进行取舍,对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误。...

【技术特征摘要】
1.一种在噪音标注下能够有效识别模型未知错误的方法,其特征在于在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误,其具体识别按下述步骤进行:步骤a:每次查询的时候从未标注过的样本中随机或挑选当前最有可能是模型未知错误的样本;步骤b:挑选当前最有可能是模型未知错误的时候,借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响,同时能够做...

【专利技术属性】
技术研发人员:杨静郑波徐聪
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1