【技术实现步骤摘要】
分类模型校准
[0001]本专利技术涉及用于对训练分类模型进行校准的方法、用于对训练分类模型进行校准的系统、用于对输入图像进行分类的方法、用于对输入图像进行分类的系统以及计算机可读介质。
技术介绍
[0002]机器学习(“训练的”)模型广泛使用在诸如自主驾驶、机器人、制造、建筑控制等之类的许多现实生活应用领域中。例如,诸如神经网络的机器可学习模型可以被训练来基于由一个或多个传感器获取的传感器数据推断诸如自主车辆或机器人等物理系统的状态,或者例如车辆正在其上行驶的道路、机器人的工作空间等的系统的环境。推断出状态后,物理系统可以例如使用一个或多个致动器而被控制,或者可以监视其操作。
[0003]通常,如在机器学习中已知的,可以在训练数据上训练诸如神经网络的机器可学习模型,以便提供诸如预测或决策之类的输出。决策的示例是分类。通过训练模型,模型可以提供此类预测或决策,而无需被明确地编程来这样做。例如,为了对图像进行分类,可以在训练数据集上训练模型,该训练数据集包括模型已知其分类的图像。因此,训练的模型可以被训练以确定输入——诸如输入图像或输入声音或文本——的分类。例如,模型可以被训练为多类分类器,通过该多类分类器,图像可以被分类成例如“猫”、“狗”或“树”。另一个示例是训练的模型可以被训练成二进制分类器(例如,将输入图像分类成仅两个互补类别“正常(OK)”或“不正常(NOK)”之一)。
[0004]一般而言,此类模型可以包括深度神经网络(DNN),该深度神经网络(DNN)被定义为在输入层和输出层之间具有多层。 ...
【技术保护点】
【技术特征摘要】
1.一种对训练分类模型进行校准的计算机实现的方法(500),所述训练分类模型被训练成根据多个类对输入样本进行分类并提供相关联的预测概率,所述训练分类模型包括多个隐藏层和至少一个激活层,所述方法包括:
‑
访问(510)训练分类模型;
‑
访问(510)多个验证样本,每个验证样本具有基础真值标签,所述基础真值标签指示基础真值类;
‑
将训练分类模型应用(520)于所述多个验证样本;
‑
对于每个验证样本,从在最后激活层之前的训练分类模型的层获得(530)输出对数几率向量;
‑
训练(540)用于调整预测概率的校准模块,预测概率从输出对数几率向量导出,校准模块包括用于通过微调输出对数几率向量来调整预测概率的微调子模块和用于通过分级输出对数几率向量来调整预测概率的分级子模块中的至少一个;和其中对校准模块进行训练包括训练(550)微调模型,其中微调模型的模型参数由以下各项确定:
‑
对于所述多个验证样本中的每个验证样本:
‑
从输出对数几率向量确定(552)基础真值概率,基础真值概率是与所述验证样本的基础真值类相关联的预测概率,
‑
从输出对数几率向量确定(553)锚定概率,所述锚定概率是不正确类的最高概率,以及
‑
通过从锚定概率减去基础真值概率来确定(554)预测难度;
‑
通过使在所述多个验证样本之上取平均的微调损失函数最小化来确定(555)微调模型的模型参数,微调损失函数包括基于每个验证样本的预测难度的调制项,确定的模型参数定义了训练微调模型;和
‑
将训练微调模型存储(556)在校准模块中;和
‑
将训练校准模块附加(570)到训练分类模型,以获得校准的分类模型。2.根据权利要求1所述的方法,其中所述校准模块包括分级子模块,所述分级子模块包括定义仓边界和仓代表的分级方案,并且其中对校准模块进行训练包括通过以下各项确定(560)分级方案:
‑
对于每个验证样本,将输出对数几率向量转换(562)成二进制分类集,每个二进制分类包括二进制标签()和相关联的标量对数几率();
‑
通过使分级损失函数最小化来确定(563)仓边界,使分级损失函数最小化相当于使在量化的标量对数几率和与所述量化的标量对数几率相关联的二进制标签之间的互信息最大化,通过更新仓边界和辅助变量集来使分级损失函数最小化,其中量化的标量对数几率根据分级方案被量化;
‑
将标量对数几率量化(564)到由确定的仓边界定义的仓中;
‑
对于每个仓确定(565)用于表示所述仓中的量化的标量对数几率的仓代表值;和
‑
在校准模块中存储(566)定义确定的分级方案的仓边界和仓代表。3.根据权利要求2所述的方法,其中使分级损失函数最小化包括通过使用梯度下降和封闭形式计算中的至少一个来更新仓边界和辅助变量中的至少一个。
4.根据权利要求2或权利要求3所述的方法,其中确定每个仓的仓代表包括确定其对应标量对数几率落入所述仓内的验证样本的比例,验证样本的比例具有相同的基础真值标签,以及将所述仓的仓代表设置为对应于确定的比例的预测概率。5.根据权利要求2至权利要求4中任一项所述的方法,其中将输出对数几率向量转换成二进制分类集包括以下各项中的一个:
‑
使用前k个校准将前k个预测校准为二进制分类,k是整数;
‑
使用逐类校准来校准对于所述多个类中的每个类的预测;和
‑
使用共享的逐类校准来校准对于所述多个类中的每个类的预测。6.根据任一前述权利要求所述的方法,其中所述微调损失函数包括负对数似然函数、Brier评分函数和合页损失函数中的至少一个。7.根据任一前述权利要求所述的方法,其中所述微调损失函数基于参数模型,诸如矩阵缩放模型和/或狄利克雷校准模型。8.根据权利要求3至7中任一项所述的方法,当依赖于权利要求2时,进一步包括,对于每个验证样本,根据训练的微调模型微调(557)输出对数几率向量,其中每个验证样本的输出对数几率向量在被量化之前被微调,并且其中确定每个仓的仓代表包括:
‑
对于落入所述仓内的每个标量对数几率,计算标量对数几率的sigmoid响应,
‑
确定在落入所述仓内的验证样本之上的计算的sigmoid响应的平均值,以及
‑
将所述仓的仓代表设置为确定的平均值。9.一种用于对训练分类模型进行校准的系统(100),所述训练分类模型被训练成根据多个类对输入样本进行分类并提供相关联的预测概率,所述训练分类模型包括多个隐藏层和至少一个激活层,所述系统包括:
‑
数据接口(120),被配置为:
‑
访问训练分类模型;
‑
访问多个验证样本;
‑
处理器子系统(140),被配置为:
‑
将训练分类模型应用于所述多个验证样本;
‑
对于每个验证样本,从在最后激活层之前的训练分类模型的层获得输出对数几率向量;
‑
训练用于调整预测概率的校准模块,预测概率从输出对数几率向量导出,校准模块包括用于通过微调输出对数几率向量来调整预测概率的微调子模块和用于通过分级输出对数几率向量来调整预测概率的分级子模块中的至少一个;和其中对校准模块进行训练包括训练(550)微调模型,其中微调模型的模型参数由以下各项确定:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。