当前位置: 首页 > 专利查询>罗伯特专利>正文

分类模型校准制造技术

技术编号:31080127 阅读:15 留言:0更新日期:2021-12-01 11:52
分类模型校准。描述了一种对训练分类模型进行校准的计算机实现的方法。训练分类模型被训练成根据多个类对输入样本进行分类并提供相关联的预测概率,并且包括多个隐藏层和至少一个激活层。该方法包括访问训练分类模型和访问多个验证样本,每个验证样本具有基础真值标签,基础真值标签指示基础真值类。该方法进一步包括将训练分类模型应用于多个验证样本,对于每个验证样本,从在最后激活层之前的训练分类模型的层获得输出对数几率向量,以及训练校准模块。校准模块被训练来调整预测概率,预测概率从输出对数几率向量导出。校准模块包括微调子模块和分级子模块中的至少一个。该方法包括将训练校准模块附加到训练分类模型,以获得校准的分类模型。校准的分类模型。校准的分类模型。

【技术实现步骤摘要】
分类模型校准


[0001]本专利技术涉及用于对训练分类模型进行校准的方法、用于对训练分类模型进行校准的系统、用于对输入图像进行分类的方法、用于对输入图像进行分类的系统以及计算机可读介质。

技术介绍

[0002]机器学习(“训练的”)模型广泛使用在诸如自主驾驶、机器人、制造、建筑控制等之类的许多现实生活应用领域中。例如,诸如神经网络的机器可学习模型可以被训练来基于由一个或多个传感器获取的传感器数据推断诸如自主车辆或机器人等物理系统的状态,或者例如车辆正在其上行驶的道路、机器人的工作空间等的系统的环境。推断出状态后,物理系统可以例如使用一个或多个致动器而被控制,或者可以监视其操作。
[0003]通常,如在机器学习中已知的,可以在训练数据上训练诸如神经网络的机器可学习模型,以便提供诸如预测或决策之类的输出。决策的示例是分类。通过训练模型,模型可以提供此类预测或决策,而无需被明确地编程来这样做。例如,为了对图像进行分类,可以在训练数据集上训练模型,该训练数据集包括模型已知其分类的图像。因此,训练的模型可以被训练以确定输入——诸如输入图像或输入声音或文本——的分类。例如,模型可以被训练为多类分类器,通过该多类分类器,图像可以被分类成例如“猫”、“狗”或“树”。另一个示例是训练的模型可以被训练成二进制分类器(例如,将输入图像分类成仅两个互补类别“正常(OK)”或“不正常(NOK)”之一)。
[0004]一般而言,此类模型可以包括深度神经网络(DNN),该深度神经网络(DNN)被定义为在输入层和输出层之间具有多层。
[0005]通过机器学习模型(诸如训练的神经网络)进行的分类可以使用在无数的应用中,诸如制造过程中的光学质量检查或自主车辆中的危险检测。
[0006]近年来,机器学习模型已经被广泛和成功地用于分类任务。这些机器学习模型——也称为分类器或分类器模型——可以被配置为对图像、声音(例如,语音)和许多其他形式的信息进行分类。典型地,对分类器模型进行训练包括提供多个训练样本,所述多个训练样本包括提供的基础真值分类。例如,训练样本可能是猫的图片,并且基础真值分类将作为“猫”提供。该模型使用大量此类训练样本来训练多个模型参数。然而,要训练的模型参数的数量通常远远数目超过训练样本的数量,这导致过度拟合到负对数似然(NLL)损失。该过度拟合导致过度自信的预测,其输出的预测具有不代表其真实分类能力的高置信度。换言之,模型看起来比它实际训练得好。不能依赖于过度自信的预测,因为它们不拒绝有风险的预测,这意味着分类模型不能可靠地使用在诸如传感器融合之类的应用中,在所述应用中,当从其进行融合预测时,不同传感器的重要性被加权。因此,预测置信度校准的主题是相当大量研究工作的焦点。
[0007]训练分类模型的完美校准意味着某些重复性事件的真实标签分布与模型做出的预测分布相匹配。校准关注于模型在一系列预测、而不是任何单个预测之内的性能。例如,
(arXiv预印本arXiv:2002.09437,2020,())描述了对模型进行训练,其中训练包括考虑焦点损失,以便实现更自然校准的训练模型。该论文描述了在训练期间如何使用焦点损失将模型的注意力引导向当前对于正确类正在预测低概率的样本。

技术实现思路

[0014]可能合期望的是以样本高效的方式校准训练分类模型,而不需要重新训练分类模型或调整其任何参数。验证样本集具有有限的大小。验证样本通常是通过捕获数据(诸如照片或图像)并让人们手动对每个图像或照片中的对象进行分类来创建的。在许多情形下,生成高体量的验证样本是耗时的,并且经常不切实际。因此,以样本高效的方式校准训练分类模型减少了过度自信的预测,并且允许在预测不确定性的准确指示下基于分类做出决策。
[0015]根据本专利技术的第一方面,分别如权利要求1和权利要求10限定的,描述了一种计算机实现的方法和对应的校准系统,用于通过训练可以附加到训练分类模型的校准模块来校准训练分类模型。根据本专利技术的方面,分别如权利要求11和权利要求14限定的,描述了一种计算机实现的方法和对应的分类系统,用于使用校准的分类模型对输入样本进行分类,校准的分类模型包括附加到训练分类模型的校准模块。根据本专利技术的另一方面,如权利要求15限定的,描述了一种计算机可读介质。
[0016]各个方面涉及训练分类模型的校准以及校准分类模型的使用,所述校准分类模型包括附加到训练分类模型的训练校准模块。训练分类模型可以被训练以根据多个类对输入样本进行分类并且提供相关联的预测概率,并且可以包括多个隐藏层和至少一个激活层。可以通过训练校准模块来校准训练分类模型,而不需要对训练分类模型进行重新训练或改变其参数。训练分类模型可以应用于多个验证样本,每个验证样本具有指示该样本的基础真值类的基础真值标签。例如,如果验证样本是猫的图像,则基础真值类将是“猫”。对于每个验证样本,可以从在最后激活层之前的训练分类模型层获得输出对数几率向量。然后,多个验证样本的输出对数几率向量可以用于训练校准模块。校准模块可以包括微调子模块、分级子模块或两者,用于调整预测概率。校准模块可以被训练为通过基于输出对数几率向量确定经调整的预测概率来校准或调整预测概率。一旦被训练,校准模块就可以被附加到训练的分类模块,以获得校准的分类模型。
[0017]通过使用从训练分类模型获得的输出对数几率向量来训练校准模块,可能的是校准预测概率,而不需要重新训练或调整训练分类模型的模型参数。在校准模块接受(一个或多个)输出对数几率向量作为输入时,在没有修改的情况下,在不知道如何训练了分类模型的情况下,对于许多分类模型,校准模块可以以相同的方式被训练(例如,使用相同的方法)。
[0018]使用校准的分类模型使能以准确的预测概率对样本进行分类。例如,诸如在自主车辆和自动化光学检查中,当系统基于分类做出自主决策时,以准确的预测概率对样本进行分类是重要的。当确定如何将来自多个远程传感器的输入带到一起以形成单个模型时,传感器融合应用也依赖于预测概率。
[0019]可选地,校准模块包括分级子模块,用于通过分级输出对数几率向量来调整预测概率。分级子模块包括定义仓边界和仓代表的分级方案。仓代表可以用作经调整的预测概
率。对校准模块进行训练可以包括确定分级方案。对于每个验证样本,可以通过将输出对数几率向量转换(casting)成二进制分类集来确定分级方案,每个二进制分类包括二进制标签和相关联的标量对数几率。合期望的是以最大化在二进制标签和结果得到的量化标量对数几率之间的互信息的方式来定义仓边界。可以定义等价问题——即,使由仓边界和辅助变量集来参数化的分级损失函数最小化等价于最大化互信息。因此,可以通过使分级损失函数最小化来确定仓边界。在确定仓边界之后,可以通过根据所确定的仓边界对标量对数几率进行分级来量化验证样本的标量对数几率。然后,对于每个仓,可以确定用于表示所述仓内的标量对数几率的仓代表值。然后可以存储仓边界和仓代表,从而在校准模块中定义分级方案。
[0020]分级样本固有地引起关于那些样本的信息丢失本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对训练分类模型进行校准的计算机实现的方法(500),所述训练分类模型被训练成根据多个类对输入样本进行分类并提供相关联的预测概率,所述训练分类模型包括多个隐藏层和至少一个激活层,所述方法包括:

访问(510)训练分类模型;

访问(510)多个验证样本,每个验证样本具有基础真值标签,所述基础真值标签指示基础真值类;

将训练分类模型应用(520)于所述多个验证样本;

对于每个验证样本,从在最后激活层之前的训练分类模型的层获得(530)输出对数几率向量;

训练(540)用于调整预测概率的校准模块,预测概率从输出对数几率向量导出,校准模块包括用于通过微调输出对数几率向量来调整预测概率的微调子模块和用于通过分级输出对数几率向量来调整预测概率的分级子模块中的至少一个;和其中对校准模块进行训练包括训练(550)微调模型,其中微调模型的模型参数由以下各项确定:

对于所述多个验证样本中的每个验证样本:

从输出对数几率向量确定(552)基础真值概率,基础真值概率是与所述验证样本的基础真值类相关联的预测概率,

从输出对数几率向量确定(553)锚定概率,所述锚定概率是不正确类的最高概率,以及

通过从锚定概率减去基础真值概率来确定(554)预测难度;

通过使在所述多个验证样本之上取平均的微调损失函数最小化来确定(555)微调模型的模型参数,微调损失函数包括基于每个验证样本的预测难度的调制项,确定的模型参数定义了训练微调模型;和

将训练微调模型存储(556)在校准模块中;和

将训练校准模块附加(570)到训练分类模型,以获得校准的分类模型。2.根据权利要求1所述的方法,其中所述校准模块包括分级子模块,所述分级子模块包括定义仓边界和仓代表的分级方案,并且其中对校准模块进行训练包括通过以下各项确定(560)分级方案:

对于每个验证样本,将输出对数几率向量转换(562)成二进制分类集,每个二进制分类包括二进制标签()和相关联的标量对数几率();

通过使分级损失函数最小化来确定(563)仓边界,使分级损失函数最小化相当于使在量化的标量对数几率和与所述量化的标量对数几率相关联的二进制标签之间的互信息最大化,通过更新仓边界和辅助变量集来使分级损失函数最小化,其中量化的标量对数几率根据分级方案被量化;

将标量对数几率量化(564)到由确定的仓边界定义的仓中;

对于每个仓确定(565)用于表示所述仓中的量化的标量对数几率的仓代表值;和

在校准模块中存储(566)定义确定的分级方案的仓边界和仓代表。3.根据权利要求2所述的方法,其中使分级损失函数最小化包括通过使用梯度下降和封闭形式计算中的至少一个来更新仓边界和辅助变量中的至少一个。
4.根据权利要求2或权利要求3所述的方法,其中确定每个仓的仓代表包括确定其对应标量对数几率落入所述仓内的验证样本的比例,验证样本的比例具有相同的基础真值标签,以及将所述仓的仓代表设置为对应于确定的比例的预测概率。5.根据权利要求2至权利要求4中任一项所述的方法,其中将输出对数几率向量转换成二进制分类集包括以下各项中的一个:

使用前k个校准将前k个预测校准为二进制分类,k是整数;

使用逐类校准来校准对于所述多个类中的每个类的预测;和

使用共享的逐类校准来校准对于所述多个类中的每个类的预测。6.根据任一前述权利要求所述的方法,其中所述微调损失函数包括负对数似然函数、Brier评分函数和合页损失函数中的至少一个。7.根据任一前述权利要求所述的方法,其中所述微调损失函数基于参数模型,诸如矩阵缩放模型和/或狄利克雷校准模型。8.根据权利要求3至7中任一项所述的方法,当依赖于权利要求2时,进一步包括,对于每个验证样本,根据训练的微调模型微调(557)输出对数几率向量,其中每个验证样本的输出对数几率向量在被量化之前被微调,并且其中确定每个仓的仓代表包括:

对于落入所述仓内的每个标量对数几率,计算标量对数几率的sigmoid响应,

确定在落入所述仓内的验证样本之上的计算的sigmoid响应的平均值,以及

将所述仓的仓代表设置为确定的平均值。9.一种用于对训练分类模型进行校准的系统(100),所述训练分类模型被训练成根据多个类对输入样本进行分类并提供相关联的预测概率,所述训练分类模型包括多个隐藏层和至少一个激活层,所述系统包括:

数据接口(120),被配置为:

访问训练分类模型;

访问多个验证样本;

处理器子系统(140),被配置为:

将训练分类模型应用于所述多个验证样本;

对于每个验证样本,从在最后激活层之前的训练分类模型的层获得输出对数几率向量;

训练用于调整预测概率的校准模块,预测概率从输出对数几率向量导出,校准模块包括用于通过微调输出对数几率向量来调整预测概率的微调子模块和用于通过分级输出对数几率向量来调整预测概率的分级子模块中的至少一个;和其中对校准模块进行训练包括训练(550)微调模型,其中微调模型的模型参数由以下各项确定:

【专利技术属性】
技术研发人员:张丹K
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1