一种在噪音标注下能够有效识别模型未知错误的方法技术

技术编号：19594096 阅读：26 留言：0更新日期：2018-11-28 05:07

本发明专利技术公开了一种在噪音标注下能够有效识别模型未知错误的方法，其特点是在挑选当前最有可能是模型未知错误时采用动态最近邻算法，降低噪音标注导致的伪未知错误对于标识算法的影响，在有错误标注情况下，基于众包机制对模型进行有效的未知错误识别检测，在有限的预算和固定错误标注率下发现更多模型的未知错误。本发明专利技术与现有技术相比具有对模型假设的要求低，只需未知错误不是均匀分布在特征空间上即可，实施简单，易于部署到真实任务中去，在有限的预算和固定错误标注率下发现更多模型的未知错误，同时能够做到发现的未知错误中真正意义上是模型本身存在而不是因为错误标注导致的未知错误的比率高。

全部详细技术资料下载

【技术实现步骤摘要】
一种在噪音标注下能够有效识别模型未知错误的方法
本专利技术涉及机器学习下的模型诊断和主动学习
，尤其是一种在噪音标注下能够有效识别模型未知错误的方法。
技术介绍
在机器学习任务中，很多预测模型在原始实验测试集上经常会有比较好的预测结果，但是当部署到现实环境中去后，由于收集到的训练集和正式数据集之前的分布存在差异会导致模型的预测结果比实验结果要差。同时，在一些高风险的任务中(比如医疗诊断)，一些结果的预测错误所造成的实际影响会比其他任务大很多，有些甚至是灾难性的。其中一种常见的错误例子就是模型对于一个实例预测错误同时给予非常高的置信度(被称作UnknownUnknowns)。这类错误的产生原因大多是因为原始训练数据集相对现实世界分布上存在偏差，想从训练数据分布上去弥补这类问题例子的出现是非常困难的。目前，一般的风险控制方法(比如提高阈值)对于这类错误例子来说效果也是有限的。因此，从模型诊断的角度出发，要想保证模型在真实世界中的预测性能需要对这些未知错误进行识别，由于这些未知错误是模型高自信的，因此仅借助于模型本身是无法做到对他们的有效识别，引入众包机制对于识别...

【技术保护点】
1.一种在噪音标注下能够有效识别模型未知错误的方法，其特征在于在挑选当前最有可能是模型未知错误时采用动态最近邻算法，降低噪音标注导致的伪未知错误对于标识算法的影响，在有错误标注情况下，基于众包机制对模型进行有效的未知错误识别检测，在有限的预算和固定错误标注率下发现更多模型的未知错误，其具体识别按下述步骤进行：步骤a：每次查询的时候从未标注过的样本中随机或挑选当前最有可能是模型未知错误的样本；步骤b：挑选当前最有可能是模型未知错误的时候，借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响，同时能够做到利用已经标注过的样本信息，具体为：(1)、对于每一个已经查询过的点统计附近...

【技术特征摘要】
1.一种在噪音标注下能够有效识别模型未知错误的方法，其特征在于在挑选当前最有可能是模型未知错误时采用动态最近邻算法，降低噪音标注导致的伪未知错误对于标识算法的影响，在有错误标注情况下，基于众包机制对模型进行有效的未知错误识别检测，在有限的预算和固定错误标注率下发现更多模型的未知错误，其具体识别按下述步骤进行：步骤a：每次查询的时候从未标注过的样本中随机或挑选当前最有可能是模型未知错误的样本；步骤b：挑选当前最有可能是模型未知错误的时候，借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响，同时能够做...

【专利技术属性】
技术研发人员：杨静，郑波，徐聪，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人