从文本中提取含义表示制造技术

技术编号:32618618 阅读:23 留言:0更新日期:2022-03-12 17:48
本文提供了用于从文本提取含义表示的方法、系统和计算机程序产品。一种计算机实现的方法包括:对文本片段执行语法分析以导出语法结构;选择与所导出的语法结构相对应的一个或多个预定义语法结构模板,该一个或多个预定义语法结构模板定义语义原词和与该语义原词相对应的语义特征的不同组合;检测文本片段中的语义信息,其中,该语义信息包括语义原词中的至少一个和相对应的语义特征中的一个或多个;识别所选择的预定义语法结构模板中的与所导出的语法结构和在文本片段中的所检测到的语义信息相匹配的一个预定义语法结构模板;至少部分地基于该识别来生成文本片段的可计算含义表示;以及将可计算含义表示输出到自然语言理解应用。理解应用。理解应用。

【技术实现步骤摘要】
【国外来华专利技术】从文本中提取含义表示

技术介绍

[0001]本申请一般涉及信息技术,并且更具体地,涉及人工智能中的自然语言理解。
[0002]自然语言理解(NLU)涉及例如机器阅读理解,并且通常被认为是人工智能中的较困难的问题之一。由于NLU的许多应用,包括例如自动推理、机器翻译和语音激活,人们对NLU有相当大的兴趣。计算机科学中的现有技术通常限于自然语言处理(NLP)和信息提取(IE)系统。这些系统不能提供真正的NLU能力。另外,理论语言学和语义学对单词“含义”的定义仍不一致,理论语义学中单词“含义”的几种方法中没有一个方法可用于为NLU建立基于计算机的系统。

技术实现思路

[0003]在本文描述的主题的一个实施例中,提供了用于从文本提取含义表示的技术。一种示例性方法包括以下步骤:对至少一个文本片段执行语法分析以导出该文本片段的语法结构;选择与所导出的语法结构对应的一个或多个预定义语法结构模板,其中,预定义语法结构模板中的每一个预定义语法结构模板针对所导出的语法结构定义语义原词和与该语义原词对应的语义特征的不同组合;检测文本片段中的语义信息,其中,该语义信息包括(i)语义原词中的至少一个和(ii)对应的语义特征中的一个或多个;识别所选择的预定义语法结构模板中的与所导出的语法结构和在该文本片段中的检测到的语义信息相匹配的一个预定义语法结构模板;至少部分地基于该识别来生成该文本片段的可计算含义表示;以及将该可计算含义表示输出到一个或多个自然语言理解应用。
[0004]本专利技术的另一实施例或其元素可以以有形地体现计算机可读指令的计算机程序产品的形式来实现,当实现该计算机可读指令时,使得计算机执行多个方法步骤,如本文所描述的。此外,本专利技术的另一实施例或其元素可以以包括存储器和至少一个处理器的系统的形式实现,该至少一个处理器耦合到存储器并且被配置为执行所描述的方法步骤。此外,本专利技术的另一实施例或其元素可以以用于执行本文所描述的方法步骤的装置或其元件的形式来实现;该装置可以包括硬件模块或硬件和软件模块的组合,其中软件模块存储在有形计算机可读存储介质(或多个这样的介质)中。
[0005]本专利技术的这些和其它目的、特征和优点将从以下结合附图阅读的对其说明性实施例的详细描述中变得显而易见。
附图说明
[0006]现在将参考附图仅通过示例的方式描述本专利技术的实施例,在附图中:
[0007]图1是示出根据本专利技术的示例性实施例的系统架构的图;
[0008]图2是示出根据示例性实施例的语义信息检测器的图;
[0009]图3是示出根据示例性实施例的具有相关联的可能含义的语法结构的示图;
[0010]图4是示出根据本专利技术实施例的技术的流程图;
[0011]图5是可以在其上实现本专利技术的至少一个实施例的示例性计算机系统的系统图;
[0012]图6示出了根据本专利技术实施例的云计算环境;以及
[0013]图7示出了根据本专利技术实施例的抽象模型层。
具体实施方式
[0014]如上所述,现有技术不能提供供应真正NLU能力的基于计算机的系统。将文本转换成其含义表示的系统被称为语义解析器。通常,在语义解析中存在两种情况,即开放领域和封闭领域。在封闭领域的情况下,假设输入文本仅来自给定领域,并且存在该领域的某种表示。例如,本体经常被用作领域知识表示。本体通常包括在领域中活动的概念和关系。例如,如果该领域是购买飞机票,则本体包括诸如票、航班、目的地、城市、州、国家、价格、非停止等概念。该领域中的关系的例子包括所购买的票、为票支付的价格、航班的出发城市等。
[0015]存在若干方法来检测在给定本体的情况下在输入文本中存在什么概念和关系。一种方法是基于规则的系统,它具有由依赖关系解析器和规则匹配引擎组成的传统NLP流水线。这些系统将预先配置的规则应用于根据每个输入句子生成的依赖关系树,以搜索指示来自本体的什么概念和关系的匹配。检测到的概念和关系被视为含义表示。该含义表示还可以通过其到相应SQL查询的转换而被用在特定NLU任务中,诸如自然语言接口到数据库。
[0016]这种方法有几个缺点。首先,本体通常需要提前知道,这对于广泛的知识领域是有问题的。其次,依赖关系解析往往出错,从而导致系统相对不准确(大约60

70%)。另外,规则要提前创建,这不仅耗时,而且易于出错。
[0017]另一种语义解析的方法是基于深度学习(DL)技术,其中,在经标注的句子及其使用逻辑形式的含义表示的大型语料库上训练解析器。这种类型的方法具有需要经注释的数据的大型语料库的缺点。另外,在该语料库内,仅非常简单的含义结构是可能的。因此,这些系统也往往是不准确的,特别是当系统在一个领域中训练,然后向其呈现来自另一个不同领域的问题时。这是当系统在训练语料库中提供的一组示例内学习从文本到结构化表示的映射时的情况。
[0018]人类语言是非常复杂的,并且这些方法通常不适于复杂的情况或当从不同领域呈现系统时。
[0019]本文的示例性实施例描述了用于以可计算方式表示文本含义的技术。通常,这些技术将含义表示为通用含义原语及其特征的组合。例如,可以通过应用语义原词和自然语义元语言(NSM)理论以可计算方式提取含义表示来提取含义。
[0020]NSM用于70+语言,并且还处理多个语言概念。NSM假定含义可以由非常小的数量(即,六十四)的语义原词来表示。语义原词是通用的概念,因为它们可以被翻译成任何已知的语言并且保留它们的语义表示。语义原词也是原始的,因为它们对应于最简单的语言概念,并且不能使用更简单的术语来定义。NSM还提供关于这些语义原词如何彼此交互的规则。NSM中的语义分析导致被称为“解释”的缩减的释义,其捕获所解释的概念的含义。下面是NSM解释的一个实例:
[0021]某人X是高兴的(此时):
[0022]●
此时某人X是这样认为的:
[0023]○“
如我所愿地,在我身上发生了许多好事
[0024]○
我现在可以如我所愿做很多事情
[0025]○
这很好”[0026]●
因此,某人此时感觉到了好事
[0027]○
就像某人在其这样想时能感受到的
[0028]现在转到图1,该图是示出根据示例性实施例的系统架构100的图。架构100包括语法结构解析器110、语法模板选择器115、语义信息检测器125、语义信息组合器130和含义提取器135。
[0029]语法解析器110获得文本105的一个或多个片段,并分析这些片段以导出语法结构。这可以例如通过使用成分或依赖关系解析器来完成。语法模板选择器115选择与所导出的语法结构相对应的一个或多个语法结构模板120。注意,语法结构模板120中的每一个定义如何组合语义原词及其特征。语法结构模板120可经由离线处理(例如,基于手动语言分析)来预先确定。
[0030]语义信息检测器125检测文本片段105中的语义原词及其特征。可以使用在按语义原词的大型语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,所述方法包括:对至少一个文本片段执行语法分析以导出所述文本片段的语法结构;选择与所导出的语法结构相对应的一个或多个预定义语法结构模板,其中,所述预定义语法结构模板中的每一个预定义语法结构模板定义所导出的语法结构的语义原词和与所述语义原词相对应的语义特征的不同组合;检测所述文本片段中的语义信息,其中,所述语义信息包括(i)所述语义原词中的至少一个和(ii)相对应的语义特征中的一个或多个;识别所选择的预定义语法结构模板中的与所导出的语法结构和在所述文本片段中检测到的语义信息相匹配的一个预定义语法结构模板;至少部分地基于所述识别来生成所述文本片段的可计算含义表示;以及将所述可计算含义表示输出到一个或多个自然语言理解应用;其中,所述方法由至少一个计算设备执行。2.如权利要求1所述的计算机实现的方法,其特征在于,所述语法分析由以下至少一个来执行:成分和依赖关系解析器。3.根据权利要求1所述的计算机实现的方法,其中,所述一个或多个预定义语法结构模板是从由离线语言分析定义的多个预定义语法结构模板中选择的。4.根据权利要求1所述的计算机实现的方法,其中,所述检测包括将所述文本片段作为输入提供给至少一个经训练的神经网络,其中,所述至少一个经训练的神经网络输出所述语义信息。5.根据权利要求4所述的计算机实现的方法,其中,所述至少一个经训练的神经网络包括具有注意力的双向长短期记忆(B

LSTM)模型。6.根据权利要求4所述的计算机实现的方法,其中,所述至少一个经训练的神经网络被训练以跨多个领域检测多个语义原词中的每一个语义原词。7.根据权利要求1所述的计算机实现的方法,其中,所述至少一个语义原词是从一组六十四个语义原词中检测到的。8.根据权利要求1所述的计算机实现的方法,还包括:从以下各项中的一个或多个获得所述至少一个文本片段:文本文件、音频文件、图像文件和视频文件。9.一种计算机程序产品,包括计算机可读存储介质,所述计算机可读存储介质包含程序指令,所述程序指令可由计算设备执行以使所述计算设备:对至少一个文本片段执行语法分析以导出所述文本片段的语法结构;选择与所导出的语法结构相对应的一个或多个预定义语法结构模板,其中,所述预定义语法结构模板中的每一个预定义语法结构模板定义所导出的语法结构的语义原词和与所述语义原词相对应的语义特征的不同组合;检测所述文本片段中的语义信息,其中,所述语义信息包括(i)所述语义原词中的至少一个和(ii)相对应的语义特征中的一个或多个;识别所选择的预定义语法结构模板中的与所导出的语法结构和在所述文本片段中的所检测到的语义信息相...

【专利技术属性】
技术研发人员:V谢宁
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1