用于神经网络中过度预测的方法和系统技术方案

技术编号：38319036 阅读：17 留言：0更新日期：2023-07-29 09:01

本文公开了用于解决与聊天机器人系统中的机器学习模型相关联的过度自信问题的技术。对于机器学习模型的多个层中的每个层，关于输入的话语，为多个预测生成置信度分数的分布。基于为层生成的置信度分数的分布来确定要指派给机器学习模型的每个层的预测。基于这些预测，确定机器学习模型的总体预测。所述多个层的子集被迭代处理以识别其指派的预测满足准则的层。与机器学习模型的该层的被指派的预测相关联的置信度分数被指派为要与机器学习模型的总体预测相关联的总体置信度分数。型的总体预测相关联的总体置信度分数。型的总体预测相关联的总体置信度分数。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于神经网络中过度预测的方法和系统
[0001]相关申请的交叉引用
[0002]本申请是于2020年11月30日提交的美国临时申请No.63/119,566和于2021年11月16日提交的美国非临时申请No.17/455,181的非临时申请，并根据35USC 119(e)要求其权益和优先权。上面提到的申请的全部内容通过引用整体并入本文，用于所有目的。

[0003]本公开一般而言涉及聊天机器人(chatbot)系统，并且更具体地涉及用于解决与机器学习模型(例如，在聊天机器人系统中用于分类目的的神经网络)相关联的过度自信(overconfidence)问题的技术。

技术介绍

[0004]世界各地的许多用户都在即时消息传递或聊天平台上以便获得即时反应。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时交谈。然而，组织雇用服务人员来与客户或最终用户进行实时交谈的成本可能非常高。已经开始开发聊天机器人或机器人来模拟与最终用户的交谈，尤其是通过互联网进行交谈。最终用户可以通过最终用户已经安装和使用的消息传递应用来与机器人通信。通常由人工智能(AI)提供支持的智能机器人可以在实时交谈中更智能地进行上下文交流，因此可以允许机器人与最终用户之间进行更自然的交谈，以改善交谈体验。与最终用户学习机器人知道如何进行响应的关键字或命令的固定集合不同，智能机器人可以能够基于用户的自然语言话语(utterance)来理解最终用户的意图并相应地做出响应。
[0005]然而，聊天机器人难以构建，因为这些自动化解...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：针对机器学习模型的多个层中的每个层，关于输入的话语，为多个预测生成置信度分数的分布；基于为所述机器学习模型的每个层生成的置信度分数的分布，确定要指派给该层的预测；基于所述确定，生成所述机器学习模型的总体预测；迭代地处理所述机器学习模型的所述多个层的子集，以识别所述机器学习模型的其被指派的预测满足准则的层；以及将与所述机器学习模型的所述层的被指派的预测相关联的置信度分数指派为要与所述机器学习模型的所述总体预测相关联的总体置信度分数。2.如权利要求1所述的方法，其中，确定要指派给所述机器学习模型的每个层的预测还包括：将所述多个预测中在为该层生成的置信度分数的分布中具有最高置信度分数的预测指派为用于该层的预测。3.如权利要求1所述的方法，其中，生成所述机器学习模型的所述总体预测还包括：将所述机器学习模型的最后一层的在与所述最后一层相关联的置信度分数的分布中具有最高置信度分数的预测指派为所述机器学习模型的所述总体预测，所述最后一层是所述机器学习模型的输出层。4.如权利要求1所述的方法，其中，所述准则与以下内容对应：所述层的被指派的预测与所述机器学习模型的所述总体预测是相同的。5.如权利要求1所述的方法，其中，所述机器学习模型的所述多个层包括N个层，并且所述多个层的所述子集与所述机器学习模型的前N
‑
1个层对应，并且其中所述机器学习模型是深度神经网络模型。6.如权利要求1所述的方法，其中，所述机器学习模型包括被配置为接收所述输入的话语并生成嵌入的编码器，并且所述机器学习模型的多个层中的每个层包括被配置为生成与该层相关联的置信度分数的分布的预测模块。7.如权利要求6所述的方法，其中，与所述机器学习模型的第一层相关联的第一预测模块基于由所述编码器生成的嵌入而生成与所述第一层相关联的置信度分数的第一分布，并且所述机器学习模型的第二层基于由所述第一层处理的嵌入而生成与所述第二层相关联的置信度分数的第二分布。8.一种计算设备，包括：处理器；以及包括指令的存储器，所述指令在由所述处理器执行时，使所述计算设备至少执行以下操作：针对机器学习模型的多个层中的每个层，关于输入的话语，为多个预测生成置信度分数的分布；基于为所述机器学习模型的每个层生成的置信度分数的分布，确定要指派给该层的预测；基于所述确定，生成所述机器学习模型的总体预测；
迭代地处理所述机器学习模型的所述多个层的子集，以识别所述机器学习模型的其被指派的预测满足准则的层；以及将与所述机器学习模型的所述层的被指派的预测相关联的置信度分数指派为要与所述机器学习模型的所述总体预测相关联的总体置信度分数。9.如权利要求8所述的计算装置，其中，所述处理器还被配置为：将所述多个预测中在为每个层生成的置信度分数的分布中具有最高置信度分数的预测...

【专利技术属性】
技术研发人员：C，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人