使自主代理能够区分问题和请求制造技术

技术编号:24133711 阅读:40 留言:0更新日期:2020-05-13 07:18
本发明专利技术的系统、设备和方法涉及文本分类。文本分类系统访问文本的话语。话语包括至少一个词语。文本分类系统生成用于话语的解析树。解析树包括具有词语类型的至少一个终端节点。终端节点表示话语的词语。文本分类系统将一个或多个规则应用于文本。然后,文本分类系统将话语分类为问题或让自主代理执行动作的请求。

Enable autonomous agents to distinguish between issues and requests

【技术实现步骤摘要】
【国外来华专利技术】使自主代理能够区分问题和请求相关申请的交叉引用本申请要求于2017年9月28日提交的美国临时申请No.62/564,868的权益,该申请通过引用整体并入本文。
本公开一般而言涉及语言学。更具体而言,本公开涉及使用语言学将话语分类为问题或让自主代理执行动作的请求。关于由联邦政府资助的研发工作所获得的专利技术权利的声明不适用
技术介绍
自主代理可以被用于解决各种用户问题。例如,自主代理从用户接收对信息的请求,诸如“whatarethefeesassociatedwithacheckingaccount(与支票账户相关的费用是多少)”。随后,用户可能会问“pleaseopenanewbankaccountforme.(请为我开设新的银行账户)”。但是,当前的解决方案不能区分与问题相关的用户话语(utterance)和作为对要执行的动作的请求的话语。这部分地是因为是请求可能是隐式的,例如,“Iamtoocold(我太冷)”,而不是显式的,例如“pleaseturnontheheat.(请打开暖气)”。现有的解决方案可能将“Iamtoocold”错误地分类为与“coldness(冷)”相关的问题,并提供诸如“inSanFrancisco,thetemperaturecansometimesbecold.(在旧金山,温度有时可能会很冷)”之类的答案。因此,现有的解决方案可能使用户感到沮丧。继续以上示例,用户可能会感到沮丧,因为他对自主代理打开暖气的期望被忽略。误认这两种类型的话语的后果可能很严重。例如,如果代理误解了用户的问题,那么用户可以重新制定该问题,但是如果代理仍然无法识别该问题,那么用户可能会对如何继续感到困惑或者干脆完全放弃使用代理,从而导致代理没太大用。用户的沮丧反过来可能导致自主代理的低采用率。由此,需要用于在问题和请求之间进行区分的解决方案。
技术实现思路
一般而言,本专利技术的系统、设备和方法与文本分类相关。在一方面,一种系统包括语言引擎(linguisticengine)和规则引擎(ruleengine)。语言引擎被配置为访问包括至少一个词语(word)的话语。语言引擎还被配置为生成用于该话语的解析树。解析树包括包含词语类型的至少一个非终端节点和包含类型的至少一个终端节点。每个终端节点表示话语的词语或短语(phase)。语言引擎还被配置为将包含一个或多个词语类型的一个或多个语言模板应用于解析树。规则引擎被配置为生成从语言引擎获得的一个或多个匹配结果,并通过应用规则来确定文本的分类。规则包括:响应于确定语言模板匹配而将话语分类为请求。规则还包括:响应于确定话语包括祈使动词(imperativeverb)作为话语的第一词语而将话语分类为请求。规则还包括:响应于在话语中识别一个或多个预定义的请求关键字而将话语分类为请求。规则还包括:响应于在话语中识别一个或多个预定义的问题关键字,将话语分类为问题。该系统还基于分类被配置为向用户设备发送消息或调整外部设备的配置。在一方面,规则还包括:响应于未能将话语识别为问题或请求而将话语分类为未知的。在一方面,语言模板包括名词和第一人称(first-person)代词。在一方面,规则还包括:响应于确定话语在第一词语位置中包括问题前缀而将话语分类为问题。在一方面,一个或多个预定义的问题词语包括心理动词。在一方面,规则还包括:响应于确定话语在话语的最后词语位置处包括请求后缀而将话语分类为请求。在一方面,规则还包括:响应于确定话语包括事务动词(transactionverb)而将话语分类为请求。在一方面,语言引擎被配置为:在确定解析树之前,从话语中移除一个或多个停用词(stopword)。在一方面,一种使用分类模型将话语分类为问题或请求的方法访问文本的话语。话语包括至少一个词语。该方法生成用于该话语的解析树。解析树包括包含词语类型的至少一个非终端节点和包含类型的至少一个终端节点。每个终端节点表示话语的词语或短语。该方法通过将分类模型应用于解析树来确定话语的分类。确定话语的分类包括为解析树确定第一相似度分数,该第一相似度分数指示话语和被识别为话语的训练类别之间的第一匹配。确定话语的分类包括为解析树确定第二相似度分数,该第二相似度分数指示话语和被识别为请求的训练类别之间的第二匹配。该方法包括从分类模型接收话语的分类。该分类基于所确定的类别的相似度分数高于其它相似度分数,或者是未知的。在一方面,该方法访问包括训练数据对集合的训练数据集合。每个训练数据对包括文本和预期分类。训练数据集合既包括包含问题的第一训练数据对,又包括包含请求的第二训练数据对。该方法通过迭代地向分类模型提供训练数据对之一、从分类模型接收所确定的分类、通过计算所确定的分类与期望分类之间的差来计算损失函数,以及调整分类模型的内部参数以最小化损失函数,来训练分类模型。在一方面,分类是包括与话语的最高相似度的分类。以上方法可以在有形的计算机可读介质上实现和/或在计算机处理器和附接的存储器内操作。附图说明图1示出了根据一方面的文本分类环境的示例。图2描绘了根据一方面的解析树的示例。图3描绘了根据一方面的在文本分类环境中使用的分类数据的示例。图4描绘了根据一方面的图示用于在问题和请求之间进行区分的处理的示例的流程图。图5描绘了根据一方面的图示用于在问题和请求之间进行区分的规则的示例的流程图。图6描绘了根据一方面的用于训练机器学习模型以检测话语是问题还是请求的示例性处理的流程图。图7描绘了用于实现这些方面之一的分布式系统的简化图。图8是根据一方面的系统环境的部件的简化框图,通过该系统环境,可以将方面系统的部件所提供的服务作为云服务供应。图9图示了其中可以实现本专利技术的各方面的示例性计算机系统。具体实施方式本文公开的方面通过提供改进的文本分类而提供了对计算机实现的语言学领域的技术改进。更具体而言,某些方面使用语言学来确定文本是问题还是对要执行的动作的请求。如以上所讨论的,用于自主代理的现有解决方案无法在问题和事务请求之间进行区分,从而导致代理与用户之间的交互失败。两个人之间的对话(conversation)是一种言语形式。除了更传统的手段,诸如电子邮件和语音对话之外,第一人与第二人之间的对话可以经由电子消息(例如,聊天)来进行。自主代理聊天机器人(ChatBot)、自主数字助理或虚拟助手是可以代替第二个人并在不同程度上模仿两个人之间的对话的“智能”机器。这种系统的一个目标是第一人不能分辨出第二人是机器(由艾伦图灵(AlanTuring)在1950年开发的图灵测试)。例如,用户可以通过对话交互来与自主代理进行交互。也称为对话用户界面的这种交互是最终用户和代理之间的会话(dialog),就像在两个人之间一样。它可能很简单,例如最终用户对代理说“你好”,然后代理回答“嗨”并询问用户它如何提供帮助,或者本文档来自技高网
...

【技术保护点】
1.一种将文本分类为问题或请求的系统,包括:/n语言引擎,被配置为:/n访问包含至少一个词语的话语;/n生成用于所述话语的解析树,其中所述解析树包括包含词语类型的至少一个终端节点,其中每个终端节点表示所述话语的词语或短语;以及/n将包含一个或多个词语类型的一个或多个语言模板应用于所述解析树;以及/n规则引擎,被配置为生成从所述语言引擎获得的一个或多个匹配结果,并通过应用包括以下各项的规则来确定所述文本的分类:/n(i)响应于确定语言模板匹配,将所述话语分类为请求,/n(ii)响应于确定所述话语包括祈使动词作为所述话语的第一词语,将所述话语分类为请求,/n(iii)响应于在所述话语中识别出一个或多个预定义的请求关键字,将所述话语分类为请求,以及/n(iv)响应于在所述话语中识别一个或多个预定义的问题关键字,将所述话语分类为问题,/n其中,所述系统还基于所述分类被配置为向用户设备发送消息或调整外部设备的配置。/n

【技术特征摘要】
【国外来华专利技术】20170928 US 62/564,8681.一种将文本分类为问题或请求的系统,包括:
语言引擎,被配置为:
访问包含至少一个词语的话语;
生成用于所述话语的解析树,其中所述解析树包括包含词语类型的至少一个终端节点,其中每个终端节点表示所述话语的词语或短语;以及
将包含一个或多个词语类型的一个或多个语言模板应用于所述解析树;以及
规则引擎,被配置为生成从所述语言引擎获得的一个或多个匹配结果,并通过应用包括以下各项的规则来确定所述文本的分类:
(i)响应于确定语言模板匹配,将所述话语分类为请求,
(ii)响应于确定所述话语包括祈使动词作为所述话语的第一词语,将所述话语分类为请求,
(iii)响应于在所述话语中识别出一个或多个预定义的请求关键字,将所述话语分类为请求,以及
(iv)响应于在所述话语中识别一个或多个预定义的问题关键字,将所述话语分类为问题,
其中,所述系统还基于所述分类被配置为向用户设备发送消息或调整外部设备的配置。


2.如权利要求1所述的系统,其中,所述规则还包括:(v)响应于未能将所述话语识别为问题或请求而将所述话语分类为未知。


3.如权利要求1所述的系统,其中,所述语言模板包括第一人称代词和名词。


4.如权利要求1所述的系统,其中,所述规则还包括:(v)响应于确定所述话语在第一词语位置中包括问题前缀而将所述话语分类为问题。


5.如权利要求1所述的系统,其中,所述一个或多个预定义的问题词语包括心理动词。


6.如权利要求1所述的系统,其中,所述规则还包括:(v)响应于确定所述话语在所述话语的最后词语位置处包括请求后缀而将所述话语分类为请求。


7.如权利要求1所述的系统,其中,所述规则还包括:(v)响应于确定所述话语包括事务动词而将所述话语分类为请求。


8.如权利要求1所述的系统,其中,所述语言引擎被配置为在确定所述解析树之前从所述话语中移除一个或多个停用词。


9.一种使用分类模型将话语分类为问题或请求的方法,所述方法包括:
访问文本的话语,其中所述话语包括至少一个词语;
生成用于所述话语的解析树,其中所述解析树包括包含词语类型的至少一个终端节点,其中每个终端节点表示所述话语的词语或短语;
通过将分类模型应用于所述解析树来确定所述话语的分类,所述应用包括:
为所述解析树确定第一相似度分数,所述第一相似度分数指示所述话语和被识别为问题的训练类别之间的第一匹配,以及
为所述解析树确定第二相似度分数,所述第二相似度分数指示所述话语和被识别为请求的训练类别之间的第二匹配;
从所述分类模型接收所述话语的分类,其中所述话语的所述分类(i)基于所确定的类别的相似度分数高于其它相似度分数,或者(ii)是未知的。


10.如权利要求9所述的方法,还包括:
访问包括训练数据对集合的训练数据集合,其中每个训练数据对包括文本和预期分类,并且其中所述训练数据集合包括(i)包含问题的第一训练数据对以...

【专利技术属性】
技术研发人员:B·加里斯基V·韦氏诺一徐新
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1