模型的预测置信度评估方法及装置、设备、存储介质制造方法及图纸

技术编号:38616404 阅读:17 留言:0更新日期:2023-08-26 23:44
本公开提供一种模型的预测置信度评估方法及装置、设备、存储介质。方法包括:获取所述模型的预测结果,所述预测结果基于所述模型对预测对象中第一元素在第二元素上表现预定行为的概率进行预测得到;基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度。根据本公开,能够实现准确地评估模型在每次预测中的置信度,从而准确地表现模型在不同场景中的预测能力。场景中的预测能力。场景中的预测能力。

【技术实现步骤摘要】
模型的预测置信度评估方法及装置、设备、存储介质


[0001]本公开涉及计算机
,尤其涉及一种模型的预测置信度评估方法及装置、设备、存储介质。

技术介绍

[0002]机器学习技术中,模型的预测能力强弱通常采用AUC(Area Under Curve)、F1

Score(F1分数)等指标进行评价。但这些指标的值是基于大量已观测到的历史数据进行的整体评估结果,只能体现模型在一个历史数据上的整体表现。而整体评估表现好的模型并不一定在每一个用户和每一个场景都表现一致,不同场景中的预测表现并不能通过上述指标所反映出来。因此,现有技术中的评估方式只能反映整体预测水平,而无法准确地反映模型在不同场景中的预测水平。

技术实现思路

[0003]本公开提出一种模型的预测置信度评估方法及装置、设备、存储介质,以在一定程度上准确地表现模型在不同场景中预测能力。
[0004]本公开第一方面,提供了一种模型的预测置信度评估方法,包括:
[0005]获取所述模型的预测结果,所述预测结果基于所述模型对预测对象中第一元素在第二元素上表现预定行为的概率进行预测得到;
[0006]基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度。
[0007]本公开第二方面,提供了一种模型的预测置信度评估装置,包括:
[0008]获取模块,用于获取所述模型的预测结果,所述预测结果基于所述模型对预测对象中第一元素在第二元素上表现预定行为的概率进行预测得到;
[0009]评估模块,用于基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度。
[0010]本公开第三方面,提供了一种电子设备,其特征在于,包括一个或者多个处理器、存储器;和一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被所述一个或多个处理器执行,所述程序包括用于执行根据第一方面所述的方法的指令。
[0011]本公开第四方面,提供了一种包含计算机程序的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,使得所述处理器执行第一方面所述的方法。
[0012]本公开第五方面,提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行第一方面所述的方法。
[0013]从上面所述可以看出,本公开提供的一种模型的预测置信度评估方法及装置、设备、存储介质,基于模型对预测对象中涉及的各个元素的历史预测置信度,评估模型对该预测对象的当前预测结果的置信度,能够实现准确地评估模型在每次预测中的置信度,从而
准确地表现模型在不同场景中的预测能力。
附图说明
[0014]为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本公开实施例的模型的预测置信度评估架构的示意图。
[0016]图2为本公开实施例的示例性终端的硬件结构示意图。
[0017]图3为本公开实施例的置信度预测模型的原理性示意图。
[0018]图4为本公开实施例的置信度预测模型的原理性示意图。
[0019]图5为本公开实施例的预测模型的置信度评估方法的流程示意图。
[0020]图6为本公开实施例的预测模型的置信度评估装置的示意图。
具体实施方式
[0021]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0022]需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0023]随着机器学习技术的发展,越来越多的场合基于机器学习的模型进行事件的预测。例如,计算广告中的点击率及转化率预估,在线教育中的题目作答正确率的预估等。为了反映模型的预测水平,一般采用AUC、F1

Score等指标对模型的预测水平进行评估。这些指标的计算通常基于大量已经观测到的历史数据对模型的预测水平进行评估。
[0024]然而,现在往往存在大量场景需要对模型的每一次预测表现进行评估,当面对新的数据和新的场景时,基于历史数据的预测水平评估结果的可迁移性往往不能保证。也就是说,在对新的对象进行预测时,该模型的预测水平是否可以采用历史数据所计算的评估结果作为参考是无法保证的。例如,模型A基于历史预测数据计算的AUC值为B,即表示模型A在历史预测中的整体预测水平为B。而模型A对新对象C进行预测时,整体预测水平B是否能反映模型A对新对象C的预测准确性是无法保证的。这是因为整体评估表现好的模型并不一定在每一个用户和每一个场景都表现一致。由于不同对象历史数据的丰富程度以及模型设计等因素的影响,模型的单次预测的置信度也往往存在较大的差异。一些简单的动态置信度评估方式可以是动态统计汇总。例如以广告点击为例,可以统计历史上同一个用户被正确和错误预测的次数以及同一个广告历史上被正确或错误预测的次数。然后根据当前用户
和广告历史模型预测的表现来对这次预测水平进行判断。然而,这样的动态统计汇总的方式存在着量尺不统一以及利用方式不明确等问题。因此,如何准确地评估模型在每次预测中的置信度,准确地表现模型在不同场景中的预测能力成为了亟需解决的技术问题。
[0025]此外,以AUC这类指标来评估模型的预测准确性的传统评估方式往往不具备实时性,而且评估成本较高。例如机器学习中的分类问题,通常需要利用大量的历史数据对模型进行训练调参,然后评估模型的预测水平。这样的评估过程往往代价大,无法实现模型的动态更新。
[0026]而且,上述模型的传统评估方式的可拓展性不足且反馈有限。例如,AUC本身只能体现模型在一个历史数据上的整体表现,并不能给出改善优化时应该关注的方向,即不能直接体现预测涉及到的每一个元素的预测表现如何。预测对象可能包括多个元素,例如,一个用户在一个题目上的作答,则预测涉及到的元素包括用户和题目;一个用户在一个广告上的点击,则预测涉及到的元素包括用户和广告。由于历史数据和模型设计的原因,在某些元素上的预测表现可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型的预测置信度评估方法,其特征在于,包括:获取所述模型的预测结果,所述预测结果基于所述模型对预测对象中第一元素在第二元素上表现预定行为的概率进行预测得到;基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度。2.根据权利要求1所述的方法,其特征在于,基于所述模型对所述第一元素的第一预测置信度和对所述第二元素的第二预测置信度计算所述预测结果的预测置信度,包括:基于所述第一预测置信度和所述第二预测置信度之和与累积分布函数计算所述预测结果为真值的概率,得到所述预测结果的预测置信度;其中,所述第一预测置信度和所述第二预测置信度均服从正态分布。3.根据权利要求1所述的方法,其特征在于,还包括:获取所述预测对象的实际观测值;基于所述实际观测值和所述预测结果的比较,更新所述第一预测置信度和第二预测置信度。4.根据权利要求3所述的方法,其特征在于,基于所述实际观测值和所述预测结果的比较,更新所述第一预测置信度和所述第二预测置信度,包括:响应于所述实际观测值和所述预测结果一致,基于所述第一预测置信度的当前第一期望,与所述第一预测置信度的当前第一方差的第一比例之和,计算得到所述第一预测置信度的更新的第一期望;基于所述第一预测置信度的当前第一方差,与关于所述第一方差的第一中间变量和方差下限之间的最大值的乘积,计算得到所述第一预测置信度的更新的第一方差;基于所述第二预测置信度的当前第二期望与所述第二预测置信度的当前第二方差的所述第一比例之和,计算得到所述第二预测置信度的更新的第二期望;基于所述第二预测置信度的当前第二方差,与关于所述第二方差的第二中间变量和方差下限之间的最大值的乘积,计算得到所述第二预测置信度的更新的第二方差;其中,所述第一比例、所述第一中间变量和所述第二中间变量均与所述当前第一方差、所述当前第一期望、所述当前第二方差和所述当前第二期望相关。5.根据权利要求3所述的方法,其特征在于,基于所述实际观测值和所述预测结果的比较,更新所述第一预测置信度和所述第二置信度,包括:响应于所述实际观测值和所述预测结果不一致,基于所述第一预测置信度的当前第一期望,与所述第一预测置信度的当前第一方差的第二比例之差,计算得到所述第一预测置信度的更新的第一期望;基于所述第一预测置信度的当前第一方差,与关于所述第一方差的第三中间变量和方差下限之间的最大值的乘积,计算得到所述第一预测置信度的更新的第一方差;基于所述第二预测置信度的当前第二期望与所述第二预测置信度的当前第二方差的所述第二比例之差,计算得到所述第二预测置信度的更新的第二期望;基于所述第二预测置信度的当前第二方差,与关于所述第二方差的第四中间变量和方差下限之间的最大值的乘积,计算得到所述...

【专利技术属性】
技术研发人员:邓澍军陈懿
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1