用于神经网络中过度预测的方法和系统技术方案

技术编号:38319036 阅读:17 留言:0更新日期:2023-07-29 09:01
本文公开了用于解决与聊天机器人系统中的机器学习模型相关联的过度自信问题的技术。对于机器学习模型的多个层中的每个层,关于输入的话语,为多个预测生成置信度分数的分布。基于为层生成的置信度分数的分布来确定要指派给机器学习模型的每个层的预测。基于这些预测,确定机器学习模型的总体预测。所述多个层的子集被迭代处理以识别其指派的预测满足准则的层。与机器学习模型的该层的被指派的预测相关联的置信度分数被指派为要与机器学习模型的总体预测相关联的总体置信度分数。型的总体预测相关联的总体置信度分数。型的总体预测相关联的总体置信度分数。

【技术实现步骤摘要】
【国外来华专利技术】用于神经网络中过度预测的方法和系统
[0001]相关申请的交叉引用
[0002]本申请是于2020年11月30日提交的美国临时申请No.63/119,566和于2021年11月16日提交的美国非临时申请No.17/455,181的非临时申请,并根据35USC 119(e)要求其权益和优先权。上面提到的申请的全部内容通过引用整体并入本文,用于所有目的。


[0003]本公开一般而言涉及聊天机器人(chatbot)系统,并且更具体地涉及用于解决与机器学习模型(例如,在聊天机器人系统中用于分类目的的神经网络)相关联的过度自信(overconfidence)问题的技术。

技术介绍

[0004]世界各地的许多用户都在即时消息传递或聊天平台上以便获得即时反应。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时交谈。然而,组织雇用服务人员来与客户或最终用户进行实时交谈的成本可能非常高。已经开始开发聊天机器人或机器人来模拟与最终用户的交谈,尤其是通过互联网进行交谈。最终用户可以通过最终用户已经安装和使用的消息传递应用来与机器人通信。通常由人工智能(AI)提供支持的智能机器人可以在实时交谈中更智能地进行上下文交流,因此可以允许机器人与最终用户之间进行更自然的交谈,以改善交谈体验。与最终用户学习机器人知道如何进行响应的关键字或命令的固定集合不同,智能机器人可以能够基于用户的自然语言话语(utterance)来理解最终用户的意图并相应地做出响应。
[0005]然而,聊天机器人难以构建,因为这些自动化解决方案要求特定领域的特定知识和特定技术的应用,而这些可能仅在专业开发人员的能力范围内。作为构建此类聊天机器人的一部分,开发人员可以首先了解企业和最终用户的需求。然后,开发人员可以分析并做出与例如以下项相关的决定:选择要用于分析的数据集、准备输入数据集以进行分析(例如,在分析之前清理数据、提取、格式化和/或变换数据、执行数据特征工程设计等)、识别用于执行该分析的适当的(一种或多种)机器学习(ML)技术或(一个或多个)模型,并基于反馈来改进技术或模型以改进结果/成果。识别适当模型的任务可以包括开发多个模型,这些模型可能是并行的,在识别特定的一个(或多个)模型供使用之前对这些模型进行迭代测试和试验。另外,基于有监督学习的解决方案通常涉及训练阶段,然后是应用(即,推理)阶段,以及训练阶段和应用阶段之间的迭代循环。开发人员可以负责仔细实现和监视这些阶段以获得最优解决方案。
[0006]通常,各个机器人采用机器学习模型(例如神经网络),该模型被训练为分类器并被配置为针对给定输入从目标类或类别的集合中预测或推断用于该输入的类或类别。较深的神经网络(即,具有许多层的神经网络模型,例如,四层或更多层)一般比较浅的神经网络(即,具有较少层的神经网络模型)在其输出预测方面更准确。然而,深度神经网络存在(置信度分数的)过度自信的问题,其中,神经网络为某个类生成的置信度分数可能变得与真实
置信度分数解相关(de

correlated)。
[0007]因而,虽然深度神经网络因其提高的准确性而对于使用是期望的,但必须处理与深度神经网络相关联的过度自信问题以避免神经网络的性能问题。本文描述的实施例单独地和共同地解决了这些问题以及其它问题。

技术实现思路

[0008]公开了用于解决与在聊天机器人系统中用于分类目的的机器学习模型(例如,神经网络)相关联的过度自信问题的技术(例如,方法、系统、存储可由一个或多个处理器执行的代码或指令的非暂态计算机可读介质)。本文描述了各种实施例,包括方法、系统、存储可由一个或多个处理器执行的程序、代码或指令等的非暂态计算机可读存储介质。
[0009]本公开的一方面提供了一种方法,该方法包括:针对机器学习模型的多个层中的每个层,为关于输入的话语的多个预测生成置信度分数的分布;基于为机器学习模型的每个层生成的置信度分数的分布,确定要指派给该层的预测;基于所述确定,生成机器学习模型的总体预测;迭代地处理机器学习模型的该多个层的子集以识别机器学习模型中的被指派的预测满足一准则的层;以及将与机器学习模型的该层的被指派的预测相关联的置信度分数指派作为要与机器学习模型的总体预测相关联的总体置信度分数。
[0010]根据一个实施例,提供了一种计算设备,包括:处理器;包括指令的存储器,这些指令在由处理器执行时使计算设备至少执行以下操作:针对机器学习模型的多个层中的每个层,为关于输入的话语的多个预测生成置信度分数的分布;基于为机器学习模型的每个层生成的置信度分数的分布,确定要指派给该层的预测;基于所述确定,生成机器学习模型的总体预测;迭代地处理机器学习模型的该多个层的子集以识别机器学习模型中的被指派的预测满足一准则的层;以及将与机器学习模型的该层的被指派的预测相关联的置信度分数指派作为要与机器学习模型的总体预测相关联的总体置信度分数。
[0011]本公开的一个方面提供了一种方法,包括:针对机器学习模型的多个层中的每个层,为关于输入的话语的多个预测生成置信度分数的分布;针对该多个预测中的每个预测,基于机器学习模型的该多个层的置信度分数的分布来计算分数;确定该多个预测中的一个预测以与机器学习模型的总体预测对应;以及将与该多个预测中的该一个预测相关联的分数指派作为与机器学习模型的总体预测相关联的总体置信度分数。
[0012]在参考以下说明书、权利要求和附图时,前述内容以及其它特征和实施例将变得更加清楚。
附图说明
[0013]图1是结合示例性实施例的分布式环境的简化框图。
[0014]图2描绘了根据各种实施例的示例性神经网络模型。
[0015]图3图示了根据各种实施例的由神经网络模型执行的示例分类。
[0016]图4图示了根据各种实施例的由神经网络模型执行的另一个示例分类。
[0017]图5A描绘了根据各种实施例的由神经网络执行的过程的流程图。
[0018]图5B描绘了根据各种实施例的由神经网络模型执行的过程的流程图。
[0019]图6描绘了用于实现各种实施例的分布式系统的简化图。
[0020]图7是根据各种实施例的系统环境的一个或多个组件的简化框图,通过该系统环境可以将实施例系统的一个或多个组件提供的服务提供为云服务。
[0021]图8图示了可以用于实现各种实施例的示例计算机系统。
具体实施方式
[0022]在以下描述中,将描述各种实施例。出于解释的目的,阐述具体配置和细节以便提供对实施例的透彻理解。然而,对于本领域技术人员来说也将清楚的是,可以在没有具体细节的情况下实践这些实施例。此外,可以省略或简化众所周知的特征以便不混淆所描述的实施例。
[0023]虽然已经描述了具体实施例,但是各种修改、变更、替代构造和等同物是可能的。实施例不限于某些特定数据处理环境中的操作,而是可以自由地在多个数据处理环境中操作。此外,虽然已经使用特定系列的事务和步骤描述了某些实施例,但是对于本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:针对机器学习模型的多个层中的每个层,关于输入的话语,为多个预测生成置信度分数的分布;基于为所述机器学习模型的每个层生成的置信度分数的分布,确定要指派给该层的预测;基于所述确定,生成所述机器学习模型的总体预测;迭代地处理所述机器学习模型的所述多个层的子集,以识别所述机器学习模型的其被指派的预测满足准则的层;以及将与所述机器学习模型的所述层的被指派的预测相关联的置信度分数指派为要与所述机器学习模型的所述总体预测相关联的总体置信度分数。2.如权利要求1所述的方法,其中,确定要指派给所述机器学习模型的每个层的预测还包括:将所述多个预测中在为该层生成的置信度分数的分布中具有最高置信度分数的预测指派为用于该层的预测。3.如权利要求1所述的方法,其中,生成所述机器学习模型的所述总体预测还包括:将所述机器学习模型的最后一层的在与所述最后一层相关联的置信度分数的分布中具有最高置信度分数的预测指派为所述机器学习模型的所述总体预测,所述最后一层是所述机器学习模型的输出层。4.如权利要求1所述的方法,其中,所述准则与以下内容对应:所述层的被指派的预测与所述机器学习模型的所述总体预测是相同的。5.如权利要求1所述的方法,其中,所述机器学习模型的所述多个层包括N个层,并且所述多个层的所述子集与所述机器学习模型的前N

1个层对应,并且其中所述机器学习模型是深度神经网络模型。6.如权利要求1所述的方法,其中,所述机器学习模型包括被配置为接收所述输入的话语并生成嵌入的编码器,并且所述机器学习模型的多个层中的每个层包括被配置为生成与该层相关联的置信度分数的分布的预测模块。7.如权利要求6所述的方法,其中,与所述机器学习模型的第一层相关联的第一预测模块基于由所述编码器生成的嵌入而生成与所述第一层相关联的置信度分数的第一分布,并且所述机器学习模型的第二层基于由所述第一层处理的嵌入而生成与所述第二层相关联的置信度分数的第二分布。8.一种计算设备,包括:处理器;以及包括指令的存储器,所述指令在由所述处理器执行时,使所述计算设备至少执行以下操作:针对机器学习模型的多个层中的每个层,关于输入的话语,为多个预测生成置信度分数的分布;基于为所述机器学习模型的每个层生成的置信度分数的分布,确定要指派给该层的预测;基于所述确定,生成所述机器学习模型的总体预测;
迭代地处理所述机器学习模型的所述多个层的子集,以识别所述机器学习模型的其被指派的预测满足准则的层;以及将与所述机器学习模型的所述层的被指派的预测相关联的置信度分数指派为要与所述机器学习模型的所述总体预测相关联的总体置信度分数。9.如权利要求8所述的计算装置,其中,所述处理器还被配置为:将所述多个预测中在为每个层生成的置信度分数的分布中具有最高置信度分数的预测...

【专利技术属性】
技术研发人员:C
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1