改进的域外(OOD)检测技术制造技术

技术编号:35730891 阅读:41 留言:0更新日期:2022-11-26 18:30
本公开涉及用于识别域外话语的技术。一种特定技术包括接收话语和聊天机器人的目标域;为所述话语生成句子嵌入;获得与所述目标域相关联的域内话语的每个聚类的嵌入表示;使用度量学习模型基于所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测所述话语属于所述目标域的第一概率;使用异常值检测模型基于所确定的所述句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差来预测所述话语属于所述目标域的第二概率;评估所述第一概率和所述第二概率以确定最终概率;以及基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。的域内或域外。的域内或域外。

【技术实现步骤摘要】
【国外来华专利技术】改进的域外(OOD)检测技术
[0001]优先权要求
[0002]本申请是于2021年3月30日提交的美国临时申请号63/002,139的非临时申请并且要求所述美国临时申请的权益和优先权。出于所有目的,前述申请的全部内容通过援引并入本文。


[0003]本公开总体上涉及聊天机器人系统,并且更具体地,涉及用于识别域外(OOD)话语的改进技术。

技术介绍

[0004]为了获得即时反应,世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而,雇用服务人员与客户或最终用户进行实时交流对于组织来说会是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话,尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流并且因此可以允许机器人与最终用户之间进行更加自然的会话以改善会话体验。不是最终用户去学习机器人知道如何作出回应的固定的一组关键词或命令,本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,所述方法包括:接收话语和聊天机器人的目标域;为所述话语生成句子嵌入;获得与所述目标域相关联的域内话语的多个聚类的每个聚类的嵌入表示,其中,每个聚类的所述嵌入表示是所述聚类中每个域内话语的句子嵌入的平均值;将所述话语的所述句子嵌入和每个聚类的所述嵌入表示输入到具有已学习模型参数的度量学习模型中,所述度量学习模型被配置为提供关于所述话语是否属于所述目标域的第一概率;使用所述度量学习模型确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异;使用所述度量学习模型,基于所确定的所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测关于所述话语是否属于所述目标域的所述第一概率;将所述话语的所述句子嵌入和每个聚类的所述嵌入表示输入到使用距离或密度算法构建的异常值检测模型中以进行异常值检测;使用所述异常值检测模型来确定所述话语的所述句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差;使用所述异常值检测模型,基于所确定的距离或密度偏差来预测关于所述话语是否属于所述目标域的第二概率;评估所述第一概率和所述第二概率以确定关于所述话语是否属于所述目标域的最终概率;以及基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。2.如权利要求1所述的方法,其中,所述获得每个聚类的所述嵌入表示包括:基于所述目标域获得所述域内话语;为每个域内话语生成句子嵌入;将每个域内话语的所述句子嵌入输入到无监督聚类模型中,所述无监督聚类模型被配置为解释所述域内话语并识别所述域内话语的特征空间内的所述多个聚类;使用所述无监督聚类模型,基于所述句子嵌入的特征与每个聚类内的句子嵌入的特征之间的相似度和差异来将每个域内话语的所述句子嵌入分类为所述多个聚类之一;计算所述多个聚类中的每个聚类的质心;以及输出所述多个聚类中的每个聚类的所述嵌入表示和所述质心。3.如权利要求1所述的方法,进一步包括:基于所述话语的所述句子嵌入与所述相邻聚类的所述嵌入表示之间的所述距离或密度偏差,计算所述话语的z分数;以及通过将S形函数应用于所述z分数来确定关于所述话语是否属于所述目标域的所述第二概率。4.如权利要求1所述的方法,其中,所述话语的所述句子嵌入是使用嵌入模型生成的,所述嵌入模型将包括句子、单词和n元语法的自然语言元素映射到数字数组中,并且其中,所述自然语言元素中的每一个被表示为向量空间中的单个点。5.如权利要求1所述的方法,其中:
所述确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的所述相似度或差异包括:(i)计算所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的绝对差,(ii)将所述绝对差、所述话语的所述句子嵌入、以及每个聚类的所述嵌入表示输入到宽且深的学习网络中,其中,所述宽且深的学习网络包括线性模型和深度神经网络,(iii)使用所述线性模型和所述绝对差来预测关于所述话语是否属于所述目标域的宽基概率,以及(iv)使用所述深度神经网络、所述话语的所述句子嵌入、以及每个聚类的所述嵌入表示来确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的所述相似度或差异;并且所述预测所述第一概率包括:使用所述宽且深的学习网络的最终层来评估所述宽度概率以及所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的所述相似度或差异。6.如权利要求5所述的方法,其中:所述线性模型包括使用训练数据集训练的多个模型参数;所述训练数据集包括话语的句子嵌入与来自多个域的域内话语的每个聚类的每个嵌入表示之间的绝对差;在使用所述训练数据集训练所述线性模型期间,使用假设函数来学习所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的线性关系;以及在所述学习所述线性关系期间,所述多个模型参数被学习以最小化损失函数。7.如权利要求5所述的方法,其中:所述深度学习网络包括使用训练数据集训练的多个模型参数;所述训练数据集包括来自多个域的域内话语的句子嵌入;并且在使用所述训练数据集训练所述深度学习网络期间,所述域内话语的所述句子嵌入的高维特征被转换为较低维向量,所述较低维向量随后与来自所述域内话语的特征级联并被馈入所述深度神经网络的隐藏层中,所述较低维向量的值被随机初始化并与所述多个模型参数一起被学习以最小化损失函数。8.一种在非暂态机器可读存储介质中有形地体现的计算机程序产品,所述计算机程序产品包括被配置为使一个或多个数据处理器执行包括以下各项的动作的指令:接收话语和聊天机器人的目标域;为所述话语生成句子嵌入;获得与所述目标域相关联的域内话语的多个聚类的每个聚类的嵌入表示,其中,每个聚类的所述嵌入表示是所述聚类中每个域内话语的句子嵌入的平均值;将所述话语的所述句子嵌入和每个聚类的所述嵌入表示输入到具有已学习模型参数的度量学习模型中,所述度量学习模型被配置为提供关于所述话语是否属于所述目标域的第一概率;使用所述度量学习模型确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异;使用所述度量学习模型,基于所确定的所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测关于所述话语是否属于所述目标域的所述第一概率;将所述话语的所述句子嵌入和每个聚类的所述嵌入表示输入到使用距离或密度算法构建的异常值检测模型中以进行异常值检测;使用所述异常值检测模型来确定所述话语的所述句子嵌入与相邻聚类的嵌入表示之
间的距离或密度偏差;使用所述异常值检测模型,基于所确定的距离或密度偏差来预测关于所述话语是否属于所述目标域的第二概率;评估所述第一概率和所述第二概率以确定关于所述话语是否属于所述目标域的最终概率;以及基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。9.如权利要求8所述的计算机程序产品,其中,所述获得每个聚类的所述嵌入表示包括:基于所述目标域获得所述域内话语;为每个域内话语生成句子嵌入;将每个域内话语的所述句子嵌入输入到无监督聚类模型中,所述无监督聚类模型被配置为解释所述域内话语并识别所述域内话语的特征空间内的所述多个聚类;使用所述无监督聚类模型,基于所述句子嵌入的特征与每个聚类内的句子嵌入的特征之间的相似度和差异来将每个域内话语的所述句子嵌入分类为所述多个聚类之一;计算所述多个聚类中的每个聚类的质心;以及输出所述多个聚类中的每个聚类的所述嵌入表示和所述质心。10.如权利要求8所述的计算机程序产品,其中,所述动作进一步包括:基于所述话语的所述句子嵌入与所述相邻聚类的所述嵌入表示之间的所述距离或密度偏差,计算所述话语的z分数;以及通过将S形函数应用于所述z分数来确定关于...

【专利技术属性】
技术研发人员:T
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1