使用N-GRAM机器的自然语言处理制造技术

技术编号:24019832 阅读:71 留言:0更新日期:2020-05-02 04:52
本公开提供了执行机器学习的自然语言处理的系统和方法。计算系统可以包括机器学习的自然语言处理模型,该机器学习的自然语言处理模型包括编码器模型和编程器模型,该编码器模型被训练以接收自然语言文本主体并输出知识图,该编程器模型被训练以接收自然语言问题并输出程序。计算系统可以包括存储指令的计算机可读介质,当被执行时,所述指令使得处理器执行操作。所述操作可以包括获得自然语言文本主体,将自然语言文本主体输入到编码器模型中,接收作为编码器模型的输出的知识图,获得自然语言问题,将自然语言问题输入到编程器模型中,接收作为编程器模型的输出的程序,并且在知识图上执行程序以产生对自然语言问题的回答。

Natural language processing using n-gram machine

【技术实现步骤摘要】
【国外来华专利技术】使用N-GRAM机器的自然语言处理
本公开一般涉及机器学习。更具体地,本公开涉及经由机器学习执行自然语言处理。
技术介绍
自然语言处理(NLP)可能涉及基于包含在自然语言文档中的信息来回答自然语言问题。对这样的问题的准确回答通常可能涉及对自然语言问题和对文档两者的语义解析。有效的语义解析通常取决于具有人工定义的架构(schema)的人工知识库(human-curatedbase)。但是,这种方法可能需要大量劳力,这会使开发和维护的成本高昂。
技术实现思路
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获悉,或者可以通过实施例的实施而习知。本公开的一个示例方面针对计算系统。计算系统可以包括至少一个处理器和机器学习的自然语言处理模型。机器学习的自然语言处理模型可以包括编码器模型,该编码器模型被训练以接收自然语言文本主体,并且响应于接收到自然语言文本主体,输出知识图(knowledgegraph)。机器学习的自然语言处理模型可以包括编程器模型(programmermodel),该模型被训练以接收自然语言问题,并且响应于接收到自然语言问题,输出程序。计算系统可以包括至少一种有形的非暂时性计算机可读介质,该介质存储指令,当由至少一个处理器执行时,所述指令使得至少一个处理器执行操作。所述操作可以包括获得自然语言文本主体并将自然语言文本主体输入到编码器模型中。所述操作可以包括接收作为编码器模型的输出的知识图。所述操作可以包括获得自然语言问题并将自然语言问题输入到编程器模型中。所述操作可以包括接收作为编程器模型的输出的程序,以及在知识图上执行程序以产生对自然语言问题的回答。本公开的另一示例方面针对计算机实现的方法,该方法包括由一个或多个计算设备获得自然语言处理模型,该自然语言处理模型包括编码器模型、解码器模型和编程器模型。编码器模型可以被配置为接收自然语言文本主体,并且响应于接收到自然语言文本主体,输出知识图。解码器模型可以被配置为接收知识图,并且响应于接收到知识图,输出自然语言文本主体的重建(reconstruction)。编程器模型可以被训练以接收自然语言问题,并且响应于接收到自然语言问题,输出程序。计算机实现的方法可以包括由一个或多个计算设备将包括自然语言文本主体和自然语言问题的训练数据集输入自然语言处理模型,以接收对自然语言问题的回答。计算机实现的方法可以包括由一个或多个计算设备评估总目标函数(totalobjectivefunction),该总目标函数包括自动编码器目标函数和问答(questionanswer)目标函数。自动编码器目标函数能够描述自然语言文本主体与自然语言文本主体的重建之间的重建损失。问答目标函数能够描述基于回答和包括在训练数据集中的预期回答(expectedanswer)的比较的奖励(reward)。计算机实现的方法可以包括由一个或多个计算设备基于总目标函数训练自然语言处理模型。本公开的另一示例方面针对用于响应自然语言查询的计算系统。所述计算系统可以包括编码系统,该编码系统被配置为接收自然语言文本主体,并且使用机器学习的自然语言编码器模型基于自然语言文本主体来生成知识图。该计算系统可以包括查询编程系统,该查询编程系统被配置为接收自然语言输入查询,并且使用机器学习的自然语言查询编程器模型基于自然语言输入查询来生成用于查询知识图的程序。查询执行系统可以被配置为在所生成的知识图上执行所生成的程序并输出查询响应。本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例,并且与描述一起用于解释相关原理。附图说明在参考了附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其中:图1A描绘了根据本公开的示例方面的执行自然语言处理的示例计算系统的框图;图1B描绘了根据本公开的示例方面的执行自然语言处理的示例计算系统的框图;图1C描绘了根据本公开的示例方面的执行自然语言处理的示例计算系统的框图;图2描绘了根据本公开的示例方面的示例自然语言处理模型的框图;图3描绘了根据本公开的示例方面的被配置用于训练的示例自然语言处理模型的框图;图4描绘了根据本公开的示例方面的基于自然语言文本主体来确定对自然语言问题的回答的示例方法的流程图;图5描绘了根据本公开的示例方面的训练自然语言处理模型的示例方法的流程图;图6描绘了根据本公开的示例方面的图5中描绘的方法的特定实施方式的流程图;以及图7描绘了根据本公开的示例方面的图5中描绘的方法的另一特定实施方式的流程图。在多个附图中重复的附图标记旨在标识各个实施方式中的相同特征。具体实施方式概述一般,本公开针对包括或以其他方式利用(leverageuse)自然语言处理模型的系统和方法,该自然语言处理模型被配置为基于自然语言文本主体,诸如形成叙述或故事的一系列句子,来回答自然语言问题。具体地,自然语言处理模型可以接收与包含在自然语言文本主体中的信息有关的自然语言问题,并作为响应,提供对问题的回答。在一个示例中,自然语言处理模型可以包括一个或多个机器学习的模型,诸如编码器模型和编程器模型。在一些实施方式中,编码器模型和编程器模型中的一个或多个可以包括神经网络,例如循环(recurrent)神经网络和/或序列到序列(sequence-to-sequence)神经网络。具体地,根据本公开的一个方面,编码器模型可以被训练以接收自然语言文本主体,并输出表示以自然语言文本包含的信息的知识图。编程器模型可以被训练以响应于自然语言问题而输出程序。然后,可以在知识图上执行这个程序以产生对自然语言问题的回答。例如,在一些实施方式中,该程序可以包括被配置为搜索知识图并定位一个或多个单词以回答自然语言问题的一个或多个函数。以这样的方式,本公开的系统和方法可以基于自然语言文本,提供对自然语言问题的改进的回答。另外,在一些实施方式中,本文公开的系统和方法可以以为大量文本提供可扩展性(scalability)的方式来符号化地(symbolically)存储包含在自然语言文本主体中的信息。更具体地,本公开的各方面针对自然语言处理模型,其使得能够基于自然语言文本主体来回答自然语言文本问题。自然语言处理模型可以通过计算系统来实现或者由计算系统来执行。在一个示例中,服务器计算设备(例如,搜索服务器)可以实现自然语言处理模型,以回答用户在用户计算设备上输入的自然语言问题。例如,自然语言问题可以是搜索查询,并且自然语言文本主体可以包括在网络搜索期间识别的一个或多个网页(webpage)或其他网络文档。作为另一个示例,诸如用户计算设备(例如,智能电话、平板计算机、个人助理设备等)的单一计算设备可以实现自然语言处理模型,以回答由用户提供给设备的自然语言问题(例如,以向个人本文档来自技高网...

【技术保护点】
1.一种计算系统,包括:/n至少一个处理器;/n机器学习的自然语言处理模型,包括:/n编码器模型,其中,所述编码器模型被训练以接收自然语言文本主体,并且响应于接收到自然语言文本主体,输出知识图;以及/n编程器模型,其中,所述编程器模型被训练以接收自然语言问题,并且响应于接收到自然语言问题,输出程序;以及/n至少一种有形的非暂时性计算机可读介质,其存储指令,当由至少一个处理器执行时,所述指令使得至少一个处理器执行操作,所述操作包括:/n获取自然语言文本主体;/n将自然语言文本主体输入到编码器模型中;/n接收作为编码器模型的输出的知识图;/n获得自然语言问题;/n将自然语言问题输入到编程器模型中;/n接收作为编程器模型的输出的所述程序;以及/n在知识图上执行所述程序以产生对自然语言问题的回答。/n

【技术特征摘要】
【国外来华专利技术】1.一种计算系统,包括:
至少一个处理器;
机器学习的自然语言处理模型,包括:
编码器模型,其中,所述编码器模型被训练以接收自然语言文本主体,并且响应于接收到自然语言文本主体,输出知识图;以及
编程器模型,其中,所述编程器模型被训练以接收自然语言问题,并且响应于接收到自然语言问题,输出程序;以及
至少一种有形的非暂时性计算机可读介质,其存储指令,当由至少一个处理器执行时,所述指令使得至少一个处理器执行操作,所述操作包括:
获取自然语言文本主体;
将自然语言文本主体输入到编码器模型中;
接收作为编码器模型的输出的知识图;
获得自然语言问题;
将自然语言问题输入到编程器模型中;
接收作为编程器模型的输出的所述程序;以及
在知识图上执行所述程序以产生对自然语言问题的回答。


2.如权利要求1所述的计算系统,其中,由编程器模型输出的所述程序包括引起知识图的搜索的函数。


3.如权利要求1所述的计算系统,其中,所述知识图包括多个n-gram序列。


4.如权利要求1所述的计算系统,其中,所述自然语言文本主体包括多个句子。


5.如权利要求1所述的计算系统,其中,编程器模型和编码器模型中的至少一个已至少部分地基于机器学习的自然语言处理模型的总目标函数被训练,其中,所述总目标函数包括自动编码器目标函数和问答目标函数两者,其中,所述自动编码器目标函数描述了自然语言文本主体与由解码器模型基于知识图输出的自然语言文本主体的重建之间的重建损失,并且其中,所述问答目标函数描述了基于所述回答与预期回答的比较的奖励。


6.如权利要求1所述的计算系统,其中,所述编码器模型或所述编程器模型中的至少一个包括神经网络。


7.如权利要求6所述的计算系统,其中,所述编码器模型和所述编程器模型中的至少一个包括循环神经网络。


8.如权利要求6所述的计算系统,其中,所述编码器模型和所述编程器模型中的至少一个包括序列到序列神经网络。


9.一种计算机实现的方法,该方法包括:
由一个或多个计算设备获得自然语言处理模型,该自然语言处理模型包括编码器模型、解码器模型和编程器模型,其中,所述编码器模型被配置为接收自然语言文本主体,并且响应于接收到自然语言文本主体,输出知识图,其中,所述解码器模型被配置为接收知识图,并且响应于接收到知识图,输出自然语言文本主体的重建,并且其中,所述编程器模型被训练以接收自然语言问题,并且响应于接收到自然语言问题,输出程序;
由一个或多个计算设备将包括自然语言文本主体和自然语言问题的训练数据集输入到自然语言处理模型中,以接收对自然语言问题的回答;
由一个或多个计算设备评估包括自动编码器目标函数和问答目标函数的总目标函数,其中,所述自动编码器目标函数描述了自然语言文本主体与自然语言文本主体的重建之间的重建损失,并且其中,所述问答目标函数描述了基于所述回答与包括在训练数据集中的预期回答的比较的奖励;以及
由一个或多个计算设备基于总目标函数训练自然语言处理模型。


10.如权利要求9所述的计算机实现的方法,其中,由一个或多个计算设备基于总目标函数训练自然语言处理模型包括,由一个或多个计算设备至少部分地基于问答目标函数来训练编程器模型。


11.如权利要求9所述的计算机实现的方法,其中,由一个或多个计算设备基于总目标函数训练自然语言处理模型包括,由一个或多个计算设备至少部分地基于自动编码器目标函数联合训练编码器模型和解码器模型。


12.如权利要求9所述的计算机实现的方法,其中,所述问答目标函数还描述了编码器概率分布或编程器概率分布中的至少一个,所述编码器概率分布描述了相对于编码器模型的输出的编码器模型的输入,所述编程器概率分布描述了相对于编程器模型的输出的编程器模型的输入。


13.如权利要求9所述的计算机实现的方法,还包括由一个或多个计算设备将自动编码器目标函数在第一训练阶段中定义为第一自动编码器目标函数以及在第一训练阶段之后的第二训练阶段中定义为第二自动编码器目标函数,并且其中:
所述第一自动编码器目标函数描述了自然语言文本主体与由解码器模型基于知识图输出的自然语言文本主体的重建之间的重建损失,并且
所述第二自动编码器目标函数描述了基于所述回答与所述预期回答的比较的奖励。


14.如权利要求9所述的计算机实现的方法,还包括由一个或多个计算设备将代码辅助函数应用于编程器模型,其中,应用代码辅助函数包括向编程器模型提供势函数集,并且其中,所述编程器模型被配置为从所述势函数集中选择函数以生成所述程序。


15.如权利要求9所述的计算机实现的方法,还包括:
由一...

【专利技术属性】
技术研发人员:N劳J聂F杨
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1