用于自然语言处理的基于距离的LOGIT值制造技术

技术编号:38502443 阅读:12 留言:0更新日期:2023-08-15 17:09
用于在自然语言处理中使用logit值对输入到聊天机器人系统的话语和消息进行分类的技术。一种方法可以包括聊天机器人系统接收由与该聊天机器人系统交互的用户生成的话语。聊天机器人系统可以将话语输入到包括一组二元分类器的机器学习模型中。该组二元分类器中的每个二元分类器可以与修改后的logit函数相关联。该方法还可以包括机器学习模型使用修改后的logit函数来生成针对话语的一组基于距离的logit值。该方法还可以包括机器学习模型将增强型激活函数应用于该组基于距离的logit值以生成预测输出。该方法还可以包括聊天机器人系统基于预测输出将话语分类为与特定分类相关联。联。联。

【技术实现步骤摘要】
【国外来华专利技术】用于自然语言处理的基于距离的LOGIT值
[0001]相关申请的交叉引用
[0002]本申请要求于2020年11月30日提交的美国临时申请号63/119,459的权益,该美国临时申请的内容出于所有目的通过引用以其整体并入本文。


[0003]本公开总体上涉及聊天机器人系统,并且更具体地涉及用于确定用于在自然语言处理中对输入到聊天机器人系统的话语和消息进行分类的logit值的技术。

技术介绍

[0004]为了获得即时反应,世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而,雇用服务人员与客户或最终用户进行实时交流对于组织来说可能是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话,尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流,并且因此可以允许机器人与最终用户之间更加自然的会话以改善会话体验。不是最终用户学习机器人知道的如何作出响应的固定的一组关键词或命令,而是智能机器人可以能够基于自然语言的用户话语理解最终用户的意图并且相应地作出响应。

技术实现思路

[0005]提供了用于在自然语言处理中对输入到聊天机器人系统的话语和消息进行分类的技术。一种方法可以包括聊天机器人系统接收由与该聊天机器人系统交互的用户生成的话语。该话语可以包括从由用户输入的语音转换的文本数据。聊天机器人系统可以将话语输入到包括一组二元分类器的机器学习模型中。该组二元分类器中的每个二元分类器:(i)可以被配置为估计话语与该组分类中的分类相对应的概率;(ii)可以与将该分类的概率变换为实数的修改后的logit函数相关联。该修改后的logit函数可以是与该分类的概率相对应的几率的对数,该几率的对数是基于在该分类的概率与和该分类相关联的分布的质心之间测量的距离来确定的。
[0006]该方法还可以包括机器学习模型生成针对话语的一组基于距离的logit值。在一些实例中,该组基于距离的logit值中的每个基于距离的logit值是通过以下生成的:(i)由该组二元分类器中的相应二元分类器确定该话语与和该相应二元分类器相关联的分类相对应的相应概率;以及(ii)由该相应二元分类器并基于修改后的logit函数将该相应概率映射到基于距离的logit值。映射可以包括使用在相应概率与和分类相关联的分布的质心之间测量的相应距离,该分类与相应二元分类器相关联。
[0007]该方法还可以包括机器学习模型将增强型激活函数应用于该组基于距离的logit值以生成预测输出。预测输出可以标识预测话语是否与概率分布内的该组分类中的特定分
类相对应的归一化概率。增强型激活函数可以包括用于将增强型激活函数的初始输出归一化以确定归一化概率的学习参数。
[0008]该方法还可以包括聊天机器人系统基于预测输出将话语分类为与特定分类相关联。
[0009]还提供了用于训练使用基于距离的logit值来对话语和消息进行分类的机器学习模型的技术。一种方法可以包括训练子系统接收训练数据集。训练数据集可以包括由与聊天机器人系统交互的用户生成的多个话语。该多个话语中的至少一个话语可以包括从用户的语音输入转换的文本数据。训练子系统可以访问包括一组二元分类器的机器学习模型。该组二元分类器中的每个二元分类器:(i)可以被配置为估计话语与该组分类中的分类相对应的概率;(ii)可以与将针对该分类的概率变换为实数的修改后的logit函数相关联。在一些实例中,修改后的logit函数是与该分类的概率相对应的几率的对数,该几率的对数是基于在该分类的概率与和该分类相关联的分布的质心之间测量的距离来确定的。
[0010]该方法还可以包括训练子系统利用训练数据集训练机器学习模型的该组二元分类器。训练可以包括,对于该组二元分类器中的每个二元分类器,确定训练数据集中的话语与和该二元分类器相关联的分类相对应的相应概率。训练还可以包括基于修改后的logit函数将与该二元分类器相关联的分类的相应概率映射到基于距离的logit值。映射可以包括使用在相应概率与和该分类相关联的分布的质心之间测量的相应距离,该分类与该二元分类器相关联。
[0011]训练还可以包括将增强型激活函数应用于基于距离的logit值以生成该分类的预测输出。预测输出可以标识预测话语是否与概率分布内的该分类相对应的归一化概率。增强型激活函数可以包括用于将增强型激活函数的初始输出归一化以确定归一化概率的学习参数。训练还可以包括将增强型损失函数应用于预测输出和话语的预期输出以确定总损失。增强型损失函数可以包括用于确定总损失的一组损失项,其中,该组损失项包括:(i)二元交叉熵损失项;(ii)均方误差项;(iii)裕量损失项;以及(iv)阈值损失项。训练还可以包括调整二元分类器的一个或多个参数,其中,该一个或多个参数包括增强型激活函数的学习参数。
[0012]一旦已经执行了对机器学习模型的训练,该方法还可以包括训练子系统部署经训练的机器学习模型。
[0013]在一些实施例中,提供了一种系统,该系统包括一个或多个数据处理器和包含指令的非暂态计算机可读存储介质,该指令在所述一个或多个数据处理器上执行时使该一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部。
[0014]在一些实施例中,提供了一种计算机程序产品,该计算机程序产品有形地体现在非暂态机器可读存储介质中并且包括被配置为使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部的指令。
[0015]本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂态计算机可读存储介质,该指令当在一个或多个数据处理器上执行时使该一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或一个或多个过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂态机器可读存储介质中的计算机程序产品,该计算机程序产品包括被配置为使一个或
多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或一个或多个过程的部分或全部的指令。
[0016]可以用多种方式并且在多种上下文中实施上文和下文所描述的技术。如下文更详细地描述的,参考以下附图提供了多种示例实施方式和上下文。然而,以下实施方式和上下文仅是许多实施方式和上下文中的一些。
附图说明
[0017]图1是并入了示例性实施例的分布式环境的简化框图。
[0018]图2是根据一些实施例的实施主机器人的计算系统的简化框图。
[0019]图3是根据一些实施例的实施技能机器人的计算系统的简化框图。
[0020]图4是根据各种实施例的聊天机器人训练和部署系统的简化框图。
[0021]图5图示了根据一些实施例的示例神经网络的示意图。
[0022]图6示出了图示根据一些实施例的用于修改log本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:由聊天机器人系统接收由与所述聊天机器人系统交互的用户生成的话语,其中,所述话语包括从所述用户的语音输入转换的文本数据;由所述聊天机器人系统将所述话语输入到包括一组二元分类器的机器学习模型中,其中,所述一组二元分类器中的每个二元分类器:(i)被配置为估计所述话语与一组分类中的分类相对应的概率;(ii)与将所述分类的所述概率变换为实数的修改后的logit函数相关联,其中,所述修改后的logit函数是与所述分类的所述概率相对应的几率的对数,所述几率的对数是基于在所述分类的所述概率与和所述分类相关联的分布的质心之间测量的距离来确定的;由所述机器学习模型生成针对所述话语的一组基于距离的logit值,其中,所述一组基于距离的logit值中的每个基于距离的logit值是通过以下操作生成的:由所述一组二元分类器中的相应二元分类器确定所述话语与和所述相应二元分类器相关联的分类相对应的相应概率;以及由所述相应二元分类器并且基于所述修改后的logit函数将所述相应概率映射到所述基于距离的logit值,其中,所述映射包括使用在所述相应概率与和所述分类相关联的分布的质心之间测量的相应距离,所述分类与所述相应二元分类器相关联;由所述机器学习模型将增强型激活函数应用于所述一组基于距离的logit值以生成预测输出,其中,所述预测输出标识预测所述话语是否与概率分布内的所述一组分类中的特定分类相对应的归一化概率,并且其中,所述增强型激活函数包括用于将所述增强型激活函数的初始输出归一化以确定所述归一化概率的学习参数;以及由所述聊天机器人系统并且基于所述预测输出将所述话语分类为与所述特定分类相关联。2.如权利要求1所述的方法,进一步包括由所述聊天机器人系统基于将所述话语分类为与所述特定分类相关联来对所述用户进行响应。3.如权利要求1或权利要求2所述的方法,进一步包括通过将增强型损失函数应用于所述预测输出和与所述话语相对应的预期输出以确定总损失来训练所述机器学习模型,其中,所述总损失用于调整所述机器学习模型的一个或多个参数,其中,所述增强型损失函数包括用于确定所述总损失的一组损失项,并且其中,所述一组损失项包括:(i)二元交叉熵损失项;(ii)均方误差项;(iii)裕量损失项;以及(iv)阈值损失项。4.如权利要求3所述的方法,其中,所述一组损失项中的每个损失项与权重参数相关联,并且其中,对所述机器学习模型的训练包括基于所述总损失来调整所述一组损失项中的损失项的所述权重参数。5.如权利要求3所述的方法,其中,对所述机器学习模型的训练包括基于所述总损失来调整所述增强型激活函数的所述学习参数。6.如权利要求3至5中任一项所述的方法,其中,所述裕量损失项标识最小置信度裕量0.1。7.如权利要求3至5中任一项所述的方法,其中,所述阈值损失项标识最小阈值置信度0.5。8.如权利要求1至7中任一项所述的方法,其中,在所述分类的所述概率与和所述分类
相关联的所述分布的所述质心之间测量的所述距离是欧几里德距离或余弦距离之一。9.一种系统,包括:一个或多个数据处理器;以及包含指令的非暂态计算机可读存储介质,所述指令当在所述一个或多个数据处理器上执行时,使所述一个或多个数据处理器执行包括以下的操作:接收由与聊天机器人系统交互的用户生成的话语,其中,所述话语包括从所述用户的语音输入转换的文本数据;将所述话语输入到包括一组二元分类器的机器学习模型中,其中,所述一组二元分类器中的每个二元分类器:(i)被配置为估计所述话语与一组分类中的分类相对应的概率;(ii)与将所述分类的所述概率变换为实数的修改后的logit函数相关联,其中,所述修改后的logit函数是与所述分类的所述概率相对应的几率的对数,所述几率的对数是基于在所述分类的所述概率与和所述分类相关联的分布的质心之间测量的距离来确定的;由所述机器学习模型生成针对所述话语的一组基于距离的logit值,其中,所述一组基于距离的logit值中的每个基于距离的logit值是通过以下操作生成的:由所述一组二元分类器中的相应二元分类器确定所述话语与和所述相应二元分类器相关联的分类相对应的相应概率;以及由所述相应二元分类器并且基于所述修改后的logit函数将所述相应概率映射到所述基于距离的logit值,其中,所述映射包括使用在所述相应概率与和所述分类相关联的分布的质心之间测量的相应距离,所述分类与所述相应二元分类器相关联;由所述机器学习模型将增强型激活函数应用于所述一组基于距离的logit值以生成预测输出,其中,所述预测输出标识预测所述话语是否与概率分布内的所述一组分类中的特定分类相对应的归一化概率,并且其中,所述增强型激活函数包括用于将所述增强型激活函数的初始输出归一化以确定所述归一化概率的学习参数;以及基于所述预测输出将所述话语分类为与所述特定分类相关联。10.如权利要求9所述的系统,其中,所述指令进一步使所述一个或多个数据处理器执行包括以下的操作:基于将所述话语分类为与所述特定分类相关联来对所述用户进行响应。11.如权利要求9或权利要求10所述的系统,其中,所述指令进一步使所述一个或多个数据处理器执行包括以下的操作:通过将增强型损失函数应用于所述预测输出和与所述话语相对应的预期输出以确定总损失来训练所述机器学习模型,其中,所述总损失用于调整所述机器学习模型的一个或多个参数,其中,所述增强型损失函数包括用于确定所述总损失的一组损失项,并且其中,所述一组损失项包括:(i)二元交叉熵损失项;(ii)均方误差项;(iii)裕量损失项;以及(iv)阈值损失项。12.如权利要求11所述的系统,其中,所述一组损失项中的每个损失项与权重参数相关联,并且其中,对所述机器学习模型的训练包括基于所述总损失来调整所述一组损失项中的损失项的所述权重参数。13.如权利要求11所述的系统,其中,对所述机器学习模型的训练包括基于所述总损失来调整所述增强型激活函数的所述学习参数。
14.如权利要求11至13中任一项所述的系统,其中,所述裕量损失项标识最小置信度裕量0.1。15.如权利要求11至13中任一项所述的系统,其中,所述阈值损失项标识最小阈值置信度0.5。16.如权利要求9至15中任一项所述的系统,其中,在所述分类的所述概率与和所述分类相关联的所述分布的所述质心之间测量的所述距离是欧几里德距离或余弦距离之一。17.一种有形地体现在非暂态机器可读存储介质中的计算机程序产品,所述计算机程序产品包括被配置为使一个或多个数据处理器执行包括以下的操作的指令:接收由与聊天机器人系统交互的用户生成的话语,其中,所述话语包括从所述用户的语音输入转换的文本数据;将所述话语输入到包括一组二元分类器的机器学习模型中,其中,所述一组二元分类器中的每个二元分类器:(i)被配置为估计所述话语与一组分类中的分类相对应的概率;(ii)与将所述分类的所述概率变换为实数的修改后的logit函数相关联,其中,所述修改后的logit函数是与所述分类的所述概率相对应的几率的对数,所述几率的对数是基于在所述分类的所述概率与和所述分类相关联的分布的质心之间测量的距离来确定的;由所述机器学习模型生成针对所述话语的一组基于距离的logit值,其中,所述一组基于距离的logit值中的每个基于距离的logit值是通过以下操作生成的:由所述一组二元分类器中的相应二元分类器确定所述话语与和所述相应二元分类器相关联的分类相对应的相应概率;以及由所述相应二元分类器并且基于所述修改后的logit函数将所述相应概率映射到所述基于距离的logit值,其中,所述映射包括使用在所述相应概率与和所述分类相关联的分布的质心之间测量的相应距离,所述分类与所述相应二元分类器相关联;由所述机器学习模型将增强型激活函数应用于所述一组基于距离的logit值以生成预测输出,其中,所述预测输出标识预测所述话语是否与概率分布内的所述一组分类中的特定分类相对应的归一化概率,并且其中,所述增强型激活函数包括用于将所述增强型激活函数的初始输出归一化以确定所述归一化概率的学习参数;以及基于所述预测输出将所述话语分类为与所述特定分类相关联。18.如权利要求17所述的计算机程序产品,其中,所述指令进一步使所述一个或多个数据处理器执行包括以下的操作:基于将所述话语分类为与所述特定分类相关联来对所述用户进行响应。19.如权利要求17或权利要求18所述的计算机程序产品,其中,所述指令进一步使所述一个或多个数据处理器执行包括以下的操作:通过将增强型损失函数应用于所述预测输出和与所述话语相对应的预期输出以确定总损失来训练所述机器学习模型,其中,所述总损失用于调整所述机器学习模型的一个或多个参数,其中,所述增强型损失函数包括用于确定所述总损失的一组损失项,并且其中,所述一组损失项包括:(i)二元交叉熵损失项;(ii)均方误差项;(iii)裕量损失项;以及(iv)阈值损失项。20.如权利要求19所述的计算机程序产品,其中,所述一组损失项中的每个损失项与权重参数相关联,并且其中,对所述机器学习模型的训练包括基于所述总损失来调整所述一
组损失项中的损失项的所述权重参数。21.如权利要求19所述的计算机程序产品,其中,对所述机器学习模型的训练包括基于所述总损失来调整所述增强型激活函数的所述学习参数。22.如权利要求19至21中任一项所述的计算机程序产品,其中,所述裕量损失项标识最小置信度裕量0.1。23.如权利要求19至21中任一项所述的计算机程序产品,其中,所述阈值损失项标识最小阈值置信度0.5。24.如权利要求17至23中任一项所述的计算机程序产品,其中,在...

【专利技术属性】
技术研发人员:徐莹P
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1