【技术实现步骤摘要】
一种在噪音标注下能够有效识别模型未知错误的方法
本专利技术涉及机器学习下的模型诊断和主动学习
,尤其是一种在噪音标注下能够有效识别模型未知错误的方法。
技术介绍
在机器学习任务中,很多预测模型在原始实验测试集上经常会有比较好的预测结果,但是当部署到现实环境中去后,由于收集到的训练集和正式数据集之前的分布存在差异会导致模型的预测结果比实验结果要差。同时,在一些高风险的任务中(比如医疗诊断),一些结果的预测错误所造成的实际影响会比其他任务大很多,有些甚至是灾难性的。其中一种常见的错误例子就是模型对于一个实例预测错误同时给予非常高的置信度(被称作UnknownUnknowns)。这类错误的产生原因大多是因为原始训练数据集相对现实世界分布上存在偏差,想从训练数据分布上去弥补这类问题例子的出现是非常困难的。目前,一般的风险控制方法(比如提高阈值)对于这类错误例子来说效果也是有限的。因此,从模型诊断的角度出发,要想保证模型在真实世界中的预测性能需要对这些未知错误进行识别,由于这些未知错误是模型高自信的,因此仅借助于模型本身是无法做到对他们的有效识别,引入众包机制对于识别 ...
【技术保护点】
1.一种在噪音标注下能够有效识别模型未知错误的方法,其特征在于在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误,其具体识别按下述步骤进行:步骤a:每次查询的时候从未标注过的样本中随机或挑选当前最有可能是模型未知错误的样本;步骤b:挑选当前最有可能是模型未知错误的时候,借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响,同时能够做到利用已经标注过的样本信息,具体为:(1)、对于每一个已 ...
【技术特征摘要】
1.一种在噪音标注下能够有效识别模型未知错误的方法,其特征在于在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误,其具体识别按下述步骤进行:步骤a:每次查询的时候从未标注过的样本中随机或挑选当前最有可能是模型未知错误的样本;步骤b:挑选当前最有可能是模型未知错误的时候,借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响,同时能够做...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。