当前位置: 首页 > 专利查询>奥誓公司专利>正文

用于生成对话代理的方法和系统技术方案

技术编号:20448774 阅读:15 留言:0更新日期:2019-02-27 02:54
本教导涉及用于生成对话代理的方法和系统。在一个示例中,可以从开发者接收多个输入语句。获取释义模型。基于机器翻译生成释义模型。针对多个输入语句中的每个输入语句,基于释义模型生成该输入语句的一个或多个释义。针对多个输入语句中的每个输入语句,基于来自开发者的指令选择一个或多个释义中的至少一个释义来生成所选择的释义。基于多个输入语句和所选择的释义生成对话代理。

Method and System for Generating Dialogue Agents

This tutorial covers methods and systems for generating dialogue agents. In one example, multiple input statements can be received from the developer. Get the interpretation model. Interpretation model is generated based on machine translation. For each input statement in multiple input statements, one or more definitions of the input statement are generated based on the interpretation model. For each input statement in a plurality of input statements, at least one of one or more definitions is selected based on instructions from the developer to generate the selected definitions. Dialogue agents are generated based on multiple input statements and selected definitions.

【技术实现步骤摘要】
用于生成对话代理的方法和系统
本教导涉及用于互联网服务的方法、系统、以及编程。特别地,本教导涉及用于通过基于机器翻译的自动释义生成来生成对话代理的方法、系统、和编程。
技术介绍
对话代理的时代已经到来:每种主要的移动操作系统现在都设置有对话代理,该对话代理可以被用来与用户交流。另外,很多商业一般不提供现场聊天客户支持或服务运营商以辅助其互联网客户。在这种情况下,可以作为自动化的对话机器人或聊天机器人的对话代理,可以被用来与客户交流。聊天机器人可以是被设计为通过听觉或文本方法来模拟与一个或多个人类用户的智能对话,用于诸如个性化服务或信息获取的实际目的。为了构建对话代理,一个关键挑战是具有用于构建和测试代理/机器人的有效性的语句训练数据。为了理解用户的口头或打字命令,机器人/代理产品使用自然语言理解(NLU)模块来理解用户的命令。为了创建这样的NLU模块,必须产生可以包括分别标记有它们的正确意图的示例语句的训练数据。对于用户已经在使用的产品特征,可以采集真实的用户交互数据作为训练数据并对其进行标记。但是,对于新产品或者新产品特征,尚不存在真实的用户交互示例。因此,必须首先创建这样的语句数据然后对其进行标记。这种数据创建过程是费时的并且是扩大NLU模型的主要瓶颈。因此,需要提供一种用于生成对话代理以解决上述问题的改进方案。
技术实现思路
本教导涉及用于互联网服务的方法、系统、和编程。特别地,本教导涉及用于通过基于机器翻译的自动释义生成来生成对话代理的方法、系统、和编程。在一个示例中,公开了一种用于生成对话代理的方法,该方法被实现在具有至少一个处理器、存储装置、以及能够连接到网络的通信平台的机器上。可以从开发者接收多个输入语句。获取释义模型。释义模型是基于机器翻译生成的。针对多个输入语句中的每个输入语句,基于释义模型生成该输入语句的一个或多个释义。针对多个输入语句中的每个输入语句,基于来自开发者的指令选择一个或多个释义中的至少一个释义来生成所选择的释义。基于多个输入语句和所选择的释义生成对话代理。在另一示例中,公开了一种用于生成对话代理的系统,具有至少一个处理器、存储装置、以及能够连接到网络的通信平台。该系统包括:释义生成器,被配置用于从开发者接收多个输入语句,获取基于机器翻译生成的释义模型,并针对多个输入语句中的每个输入语句,基于释义模型生成该输入语句的一个或多个释义;释义数据选择器,被配置用于针对多个输入语句中的每个输入语句,基于来自开发者的指令选择一个或多个释义中的至少一个释义来生成所选择的释义;以及对话代理生成器,被配置用于基于多个输入语句和所选择的释义生成对话代理。其他概念涉及用于实现有关生成对话代理的本教导的软件。根据本概念的软件产品包括至少一个机器可读非暂态介质以及由该介质承载的信息。由该介质承载的信息可以是可执行程序代码数据、与可执行程序代码相关联的参数、和/或与用户、请求、内容有关的信息或者与社会群组有关的信息等。在一个示例中,公开了一种机器可读的非暂态有形介质,其上记录有用于生成对话代理的信息。该信息在被机器读取时使得机器执行以下操作:从开发者接收多个输入语句;获取基于机器翻译生成的释义模型;针对多个输入语句中的每个输入语句,基于释义模型生成该输入语句的一个或多个释义;针对多个输入语句中的每个输入语句,基于来自开发者的指令选择一个或多个释义中的至少一个释义来生成所选择的释义;以及基于多个输入语句和所选择的释义生成对话代理。在下面的描述中将部分地阐述附加的新颖特征,这些新颖特征在本领域技术人员考查下面的解释和附图后将变得显而易见或者可以通过示例的生产或操作习得。本教导的新颖特征可以通过实施或使用下面讨论的详细示例中给出的各个方面的方法、工具、和组合实现或得到。附图说明在示例性实施例中进一步描述了本文描述的方法、系统、和/或编程。参考附图详细描述这些示例性实施例。这些实施例是非限制性的示例性实施例,其中贯穿多个附图以相似的参考标号表示相似的结构,其中:图1是根据本教导的实施例的用于通过基于机器翻译的自动释义生成来生成对话代理的示例性网络环境的高层次描绘;图2是根据本教导的实施例的用于通过基于机器翻译的自动释义生成来生成对话代理的另一示例性网络环境的高层次描绘;图3示出了根据本教导的实施例的用于训练或生成对话代理的各种示例性数据;图4示出了根据本教导的实施例的用于生成对话代理的针对开发者的示例性用户界面;图5示出了根据本教导的实施例的基于释义的对话代理训练引擎的示例性图示;图6是根据本教导的实施例的由基于释义的对话代理训练引擎执行的示例性过程的流程图;图7示出了根据本教导的实施例的释义生成器的示意性图示;图8是根据本教导的实施例的由释义生成器执行的示例性过程的流程图;图9示出了根据本教导的实施例的释义模型生成器的示例性图示;图10是根据本教导的实施例的由释义模型生成器执行的示例性过程的流程图;图11示出了根据本教导的实施例的基于机器翻译的训练数据收集器的示例性图示;图12是根据本教导的实施例的由基于机器翻译的训练数据收集器执行的示例性过程的流程图;图13示出了可以被用来实现结合本教导的专用系统的移动设备的基础架构;以及图14示出了可以被用来实现结合本教导的专用系统的计算机的基础架构。具体实施方式在下面的详细描述中,通过示例给出了各种具体细节,以提供对于相关教导的透彻理解。但是,对于本领域技术人员显而易见的是,本教导可以在没有这些细节的条件下实施。在其他实例中,没有以相对较高的层级详细描述公知的方法、过程、系统、组件、和/或电路,以避免不必要地模糊本教导的多个方面。本公开描述了用于通过基于机器翻译的自动释义生成来生成对话代理的方法、系统、以及编程方面。这里公开的方法和系统旨在通过生成用于快速构建和训练NLU模型的训练数据来高效地生成对话代理。为了构建对话代理,一个关键挑战是具有用于构建和测试代理/机器人的有效性的语句训练数据。当第一次启动这样的代理/机器人产品时或者启动这样的产品上的新特征时,必须针对这些新特征添加对于自然语言理解模块的支持。这可以通过创建示例语句作为训练数据集的一部分来进行。为了理解用户的口头或打字命令,机器人/代理产品使用NLU模块来理解用户的命令。该模块可以将用户的自然语言命令的文本形式的“语句”转换为可以反映用户的“意图”的可操作数据。为了创建这样的NLU模块,必须产生训练数据,该训练数据可以包括分别标记有它们的正确意图的示例语句。对于用户已经在使用的产品特征,可以采集真实的用户交互数据作为训练数据并对它们进行标记。但是,对于新产品或新产品特征,尚不存在真实的用户交互示例。因此,必须首先创建这样的语句数据然后对其进行标记。该数据创建过程是费时的并且是扩大NLU模型的主要瓶颈。术语“对话代理”、“代理”、“机器人”、“聊天机器人”在本文中可以交换使用。本教导使用自动释义系统解决了这个训练数据创建瓶颈。对于开发者输入的每个示例语句,所公开的系统可以生成数十个到数百个释义,这些释义可以是使用不同词语的语义上等效的语句。这些语句被呈现给开发者,开发者仅可以选择最适当的一些语句添加到模型中。这使得训练数据生成过程更简单、更迅速,并且有助于确保训练数据集中呈现良好的多样性,从本文档来自技高网...

【技术保护点】
1.一种用于生成对话代理的方法,被实现在具有至少一个处理器、存储装置、以及连接到网络的通信平台的机器上,该方法包括:从开发者接收多个输入语句;获取基于机器翻译生成的释义模型;针对所述多个输入语句中的每个输入语句,基于所述释义模型生成该输入语句的一个或多个释义;针对所述多个输入语句中的每个输入语句,基于来自所述开发者的指令选择所述一个或多个释义中的至少一个释义来生成所选择的释义;以及基于所述多个输入语句和所选择的释义生成所述对话代理。

【技术特征摘要】
2017.08.02 US 15/667,2831.一种用于生成对话代理的方法,被实现在具有至少一个处理器、存储装置、以及连接到网络的通信平台的机器上,该方法包括:从开发者接收多个输入语句;获取基于机器翻译生成的释义模型;针对所述多个输入语句中的每个输入语句,基于所述释义模型生成该输入语句的一个或多个释义;针对所述多个输入语句中的每个输入语句,基于来自所述开发者的指令选择所述一个或多个释义中的至少一个释义来生成所选择的释义;以及基于所述多个输入语句和所选择的释义生成所述对话代理。2.如权利要求1所述的方法,还包括:基于所存储的用户-代理对话,生成聚合训练数据;以及基于所述聚合训练数据,训练所述释义模型。3.如权利要求2所述的方法,还包括:获取语法规则和一个或多个语言模型;基于所述一个或多个语言模型生成多个N元特征;基于机器翻译收集更多训练数据;以及基于所述聚合训练数据和所收集的更多训练数据对所述释义模型进行训练。4.如权利要求3所述的方法,其中,基于机器翻译收集更多训练数据包括:生成原始语言的文本;基于机器翻译将所述文本翻译为其他语言;基于机器翻译将所述文本翻译回所述原始语言;以及生成基于机器翻译的释义数据,作为用于训练所述释义模型的更多训练数据。5.如权利要求1所述的方法,还包括:获取自然语言理解(NLU)模型;以及基于所述NLU模型、所述多个输入语句、以及所述所选择的释义,生成多个意图-语句关联,其中,所述对话代理是基于所述多个意图-语句关联生成的。6.如权利要求1所述的方法,其中,针对所述多个输入语句中的每个输入语句,生成该输入语句的一个或多个释义包括:将所述输入语句解析为多个部分;获取与待构建的代理有关的代理模型;基于所述代理模型对所述多个部分中的每个部分进行分词;以及基于所述释义模型和经分词的部分确定所述输入语句的多个释义。7.如权利要求6所述的方法,其中,针对所述多个输入语句中的每个输入语句,生成该输入语句的一个或多个释义包括:生成所述多个释义中的每个释义的置信分数;基于所述多个释义各自的置信分数对所述多个释义进行排序,以生成经排序的释义;校正所述经排序的释义中的语法错误;基于Word2Vec模型和语言模型中的至少一者对所述经排序的释义进行扩展;以及基于经扩展的经排序的释义生成所述输入语句的一个或多个释义。8.一种用于生成对话代理的系统,具有至少一个处理器、存储装置、以及连接到网络的通信平台,该系统包括:释义生成器,被配置用于从开发者接收多个输入语句;获取基于机器翻译生成的释义模型;以及针对所述多个输入语句中的每个输入语句,基于所述释义模型生成所述输入语句的一个或多个释义;释义数据选择器,被配置用于针对所述多个输入语句中的每个输入语句,基于来自所述开发者的指令选择所述一个或多个释义中的至少一个释义来生成所选择的释义;以及对话代理生成器,被配置用于基于所述多个输入语句和所述所选择的释义生成所述对话代理。9.如权利要求8所述的系统,还包括:训练数据聚合器,被配置用于基于所存储的用户-代理对话生成聚合训练数据;以及释义模型生成器,被配置用于基于所述聚合训练数据来训练所述释义模型。10.如权利要求9所述的系统,其中,所述释义模型生成器包括:N元特征生成器,被配置用于获取一个或多个语言模型,并基于所述一个或多个语言模型生成多个N元特征;基于机器翻译的训练数据收集器,被配置用于基于机器翻译收集更多训练数据;以及统计释义模型训练引擎,被配置用于获取语法规则,并基于所述聚合训练数据、所收集的更多训练数据、以及所述语法规则,来训练所述释义模型。11.如权利要求10所述的系统,其中,所述基于机器翻译的训练数据收集器包括:基于原始语言的文本生成器,被配置用于生成原始语言的文本;一个或多个机器翻译器,被配置用于基于机器翻译将所述文本翻译为其...

【专利技术属性】
技术研发人员:安科尔·古普塔蒂莫西·戴利图拉姆·巴恩
申请(专利权)人:奥誓公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1